代码之家 › 专栏 › 技术社区 › AboutDev

用dsl解析文档

dsl-tools dsl parsing .net

AboutDev · 技术社区 · 15 年前

我正试图想出一种方法来浏览大约一百万个正式文档(为了论证起见,它们是论文文档)。它们并不都是标准化的,但已经足够接近了。它们是标题、章节、段落等。可能会出现微妙的差异,例如在英语中,我们称标题为“title”,但在法语中,它是“titre”。

因此,在我看来,最好的方法是创建一个ebnf,其中包含title:=title titre的所有可能组合。

我不太关心是否能提出ebnf。我主要关心的是如何实现解析。我看过安特尔、奥斯陆、讽刺和其他很多地方,但没有专业知识来判断它们是否适合我的任务。

所以,我向你们中的学者提出的问题是

我选择的开发平台是C。我之所以提到这一点,是因为理想情况下,我希望将dsl工具集成到代码中,以便我们可以从现有的应用程序中使用它。

1 回复 | 直到 15 年前

AboutDev 15 年前

我遇到一个叫做 TinyPG . 这并不完全是我所需要的,但是有了源代码可以让我生成我所需要的。

推荐文章

Arvind26 · Camel-restlet/rest-dsl中的转义序列

7 年前

Andrzej · Elasticsearch应在不计算相关性的情况下进行查询(\u分数)

7 年前

Rajat.r2 · 如何在apache camel DSL中使用基于包含的路由解析CSV数据?

7 年前

Poul K. Sørensen · 如何在dotnet core上创建自己的DSL,是否有框架?

7 年前

Damien Walle · 带有DSL的sftp出站网关的远程目录

7 年前

Mikail · 如何将特定的elasticsearch dsl查询转换为嵌套查询?

7 年前

trinath · 在eclipse中为扩展名为groovy的文件启用调试点。idsl

7 年前

ÐÐ°Ð²Ð¸Ð´ ÐÐµÑÑÐ°ÐµÐ² · 其他类中类的函数扩展

7 年前

Aaron Cooley · 使用dplyr的函数编程

8 年前

OussamaM · Elasticsearch查询:在句子数组中匹配单词

8 年前