代码之家  ›  专栏  ›  技术社区  ›  sweetmusicality

将非结构化文本数据管理到DBMS中

  •  0
  • sweetmusicality  · 技术社区  · 6 年前

    # Full information about Amazon Share the Love products 
        Total items: 548552
    
        Id:   0
        ASIN: 0771044445
          discontinued product
    
        Id:   1
        ASIN: 0827229534
          title: Patterns of Preaching: A Sermon Sampler
          group: Book
          salesrank: 396585
          similar: 5  0804215715  156101074X  0687023955  0687074231  082721619X
          categories: 2
           |Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Preaching[12368]
           |Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Sermons[12370]
          reviews: total: 2  downloaded: 2  avg rating: 5
            2000-7-28  cutomer: A2JW67OY8U6HHK  rating: 5  votes:  10  helpful:   9
            2003-12-14  cutomer: A2VE83MZF98ITY  rating: 5  votes:   6  helpful:   5
    

    500000多个身份证。我想提取一些问题,比如“在类别xxx下最受欢迎的书是什么?”或者“哪个客户的平均帮助评价最高?”或者甚至建议“客户xxx喜欢哪本书?”

    但是,我不知道如何处理这种类型的数据。我在想四个数据库/表(什么是正确的术语!):

    1. Id ASIN title group salesrank num_of_similar num_of_categories total_reviews downloaded_reviews avg_rating_reviews

    2. customer_name customer_date customer_rating customer_votes customer_helpful

    3. 身份证件 category_name

    4. 身份证件 similar

    Id       category_name
    1        Books
    1        Subjects
    1        Religion & Spirituality
    

    然而,我没有将非结构化文本转换为数据库的经验,我正在寻找一些指导。我从哪里开始!我应该调查一下诺什吗!或者MS访问!我是否使用for循环来提取信息(例如,类别名称)?如果是,怎么办!我用正则表达式吗?我还没有找到任何初学者友好的教程,关于如何将非结构化文本结构到可管理的数据库中,所以任何指导都会非常感谢。

    0 回复  |  直到 6 年前
        1
  •  0
  •   amirouche    5 年前

    观察 Entity-Attribute-Value model 三重存储(如RDF)。

    hoply .