# Full information about Amazon Share the Love products
Total items: 548552
Id: 0
ASIN: 0771044445
discontinued product
Id: 1
ASIN: 0827229534
title: Patterns of Preaching: A Sermon Sampler
group: Book
salesrank: 396585
similar: 5 0804215715 156101074X 0687023955 0687074231 082721619X
categories: 2
|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Preaching[12368]
|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Sermons[12370]
reviews: total: 2 downloaded: 2 avg rating: 5
2000-7-28 cutomer: A2JW67OY8U6HHK rating: 5 votes: 10 helpful: 9
2003-12-14 cutomer: A2VE83MZF98ITY rating: 5 votes: 6 helpful: 5
500000多个身份证。我想提取一些问题,比如“在类别xxx下最受欢迎的书是什么?”或者“哪个客户的平均帮助评价最高?”或者甚至建议“客户xxx喜欢哪本书?”
但是,我不知道如何处理这种类型的数据。我在想四个数据库/表(什么是正确的术语!):
-
Id
ASIN
title
group
salesrank
num_of_similar
num_of_categories
total_reviews
downloaded_reviews
avg_rating_reviews
-
customer_name
customer_date
customer_rating
customer_votes
customer_helpful
-
身份证件
category_name
-
身份证件
similar
Id category_name
1 Books
1 Subjects
1 Religion & Spirituality
然而,我没有将非结构化文本转换为数据库的经验,我正在寻找一些指导。我从哪里开始!我应该调查一下诺什吗!或者MS访问!我是否使用for循环来提取信息(例如,类别名称)?如果是,怎么办!我用正则表达式吗?我还没有找到任何初学者友好的教程,关于如何将非结构化文本结构到可管理的数据库中,所以任何指导都会非常感谢。