代码之家 › 专栏 › 技术社区 › codekaizen

解析半结构化数据-我可以使用任何分类器吗?

data-analysis classification parsing

codekaizen · 技术社区 · 15 年前

我有一套半正规格式的文件。行通常由新行字符分隔,每行的主要组件由空格分隔。一些例子包括一套家具组装说明、一套目录、一套食谱和一套银行对账单。

问题在于,每个集合中的每个样本与其对等成员之间的差异使得regex解析不可行:一个项目的数量可能在项目名称之前或之后,相同的项目在样本之间可能有不同的名称,行之间可能存在说明性文本或注释等。

我使用分类器(神经网络、贝叶斯、GA和GP)处理整个文档或数据集,但不从文档中提取项目并在上下文中对它们进行分类。能做到吗?有更可行的方法吗?

2 回复 | 直到 10 年前

Ira Baxter 15 年前

如果您的数据具有结构,可以使用语法来描述其中的一些结构。(传统上,你使用语法来识别它们能识别什么,通常是太多了,并且额外的语法检查来删去语法不能消除的内容)。

如果您使用的语法可以运行并行的潜在解析,这样就消除了不可行的解析, 您可以直接解析不同的顺序。(GLR解析器可以很好地做到这一点)。

想象你有描述数量的数字,描述各种对象的名词,以及动作的动词。那么,可以接受不同项目顺序的语法可能是:

 G = SENTENCE '.' ;
 SENTENCE = VERB NOUN NUMBER ; 
 SENTENCE = NOUN VERB NUMBER;
 VERB = 'ORDER' | 'SAW' ;
 NUMBER = '1' | '2' | '10' ;
 NOUN = 'JOE' | 'TABLE' | 'SAW' ;

此示例非常简单,但它将处理:

 JOE ORDERED 10.
 JOE SAW 1.
 ORDER 2 SAW.

它还将接受:

 SAW SAW 10.

您可以通过添加一个外部约束来消除这一点,即参与者必须是人。

carlosdc 15 年前

有很多方法可以做到这一点。这是一个活跃的研究领域,叫做: information extraction . 尤其是从半结构化来源中提取信息。

推荐文章

SHUBHENDRA KUMAR · 如何在必要的预处理后使用nltk文本分析库预测特定文本或文本组

7 年前

John · 分类和回归树-基尼最优分割计算

8 年前

bob · 这个神经网络能进行分离吗?

8 年前

Display Name is missing · 逻辑回归输出中只有两个不同的概率值

8 年前

Scott · R中的顺序求值导致错误消息

8 年前

Alex Xu · 如何计算具有相同前缀的ID并将总数存储在另一列中

8 年前

Stanleyrr · 欺诈检测分类ML的经纬度转换

8 年前

Kay · ColumnDataClassifier的最大类数

8 年前

DataMan · 在sklearn RandomForestClassifier中,class\u weight=None是否等同于class\u weight=“balanced\u subsample”?

8 年前

Vidya Marathe · 利用支持向量机预测概率

8 年前