代码之家 › 专栏 › 技术社区 › Mr.D

间隔,在管道期间应用延长件

spacy nlp python

Mr.D · 技术社区 · 7 年前

在SpaCy中,您可以为如下文档设置扩展名:

Doc.set_extension('chapter_id', default='')

doc = nlp('This is my text')
doc._.chapter_id = 'This is my ID'

但是,我有成千上万的文本文件应该由NLP处理。SpaCy建议使用 pipe 为此:

docs = nlp.pipe(array_of_texts)

1 回复 | 直到 7 年前

Ines Montani 7 年前

您可能想启用 as_tuples 上的关键字参数 nlp.pipe ,它允许您传入 (text, context) 三元组并会屈服 (doc, context) 元组。所以你可以这样做:

data = [('Some text', 1), ('Some other text', 2)]

def process_text(data):
    for doc, chapter_id in nlp.pipe(data, as_tuples=True):
        doc._.chapter_id = chapter_id
        yield doc

推荐文章

Krish Joshi · 在Spacy中使用NER的Resume Parser:训练数据具有重叠的实体开始和结束索引。有变通办法吗?

2 年前

jlrl · 如何将自定义本地标记化器函数导入SpaCy配置文件

2 年前

Mateus Melo · ChatterBot在spaCy中加载“en”模型时出错:OSError[E941]

3 年前

Kaiser · Space用于命名实体识别(NER)的损失函数是什么

3 年前

Hadi Monzer · 代币中的“i”是什么。i+1`是指使用spacy语言返回的标记时?

4 年前

Sai Prasanna · 如何在没有文档上下文的情况下定义空间文本?

8 年前

Lau Kumra · 如何为货币重新训练现有spacy-NER模型

8 年前

Abhishek Ram · 如何在Spacy中添加其他货币字符

8 年前

max · 我怎样才能得到作为某个动词宾语的名词从句?

8 年前

Thoc theodox · Spacy培训多线程CPU使用率

8 年前