代码之家  ›  专栏  ›  技术社区  ›  me0076

使用LLM提取多个实体

  •  -1
  • me0076  · 技术社区  · 1 年前

    我正在进行一个项目,该项目涉及从相同类型的PDF文档中提取实体(40-100),每个文档由8-20页组成。这些文档包含表、键值对和文本。我正在努力寻找一种高效且经济高效的方法,以使用大型语言模型(LLM)实现实体提取的高准确性和速度。

    我已经尝试过RAG(Retrieval Augmented Generation,检索增强生成),但它似乎很昂贵,因为它需要获取相关的块并为每个实体生成JSON输出。因此,我正在寻求其他方法来完成这项任务。

    我考虑的一种方法是使用滑动窗口技术,将顺序文档部分馈送到LLM,并使用即时工程来提取该特定部分中定义的实体。然而,这种方法引入了复杂性,例如处理某些实体的重复条目。

    我非常感谢任何关于以更高效、更具成本效益的方式使用LLM从多页PDF中执行实体提取的建议或最佳实践。

    提前感谢您的帮助。

    0 回复  |  直到 1 年前