代码之家 › 专栏 › 技术社区 › ChristopheD

如何处理带有未终止多行注释的标记化错误(python 2.6)

tokenize python-2.6 parsing python

ChristopheD · 技术社区 · 16 年前

import token, tokenize, StringIO

def generate_tokens(src):
    rawstr = StringIO.StringIO(unicode(src))
    tokens = tokenize.generate_tokens(rawstr.readline)
    for i, item in enumerate(tokens):
        toktype, toktext, (srow,scol), (erow,ecol), line = item
        print i, token.tok_name[toktype], toktext

s = \
"""
 def test(x):
     \"\"\" test with an unterminated docstring
"""

generate_tokens(s)

引发以下事件:

... (stripped a little)
File "/usr/lib/python2.6/tokenize.py", line 296, in generate_tokens
    raise TokenError, ("EOF in multi-line string", strstart)
tokenize.TokenError: ('EOF in multi-line string', (3, 5))

关于这种行为的一些问题:

我是否应该在此处捕获并“选择性”忽略tokenize.TokenError?或我应该停止尝试从不合规/不完整的代码生成令牌吗?如果是,我将如何检查?
此错误(或类似错误)是否可能是由其他原因引起的

1 回复 | 直到 16 年前

Ned Batchelder 16 年前

如何处理标记化错误完全取决于标记化的原因。代码将提供所有有效标记,直到错误字符串文字的开头。如果该令牌流对您有用,那么使用它。

关于如何处理错误,您有几个选项:

您可以忽略它并拥有一个不完整的令牌流。
您可以缓冲所有令牌,并且只有在没有发生错误时才使用令牌流。
您可以处理令牌,但如果发生错误,将中止更高级别的处理。

至于除了不完整的docstring之外,该错误是否会发生,是的。请记住,docstring只是字符串文本。任何未终止的多行字符串文字都将给出相同的错误。代码中的其他词法错误也可能发生类似的错误。

s = ")"  # EOF in multi-line statement
s = "("  # EOF in multi-line statement
s = "]"  # EOF in multi-line statement
s = "["  # EOF in multi-line statement
s = "}"  # EOF in multi-line statement
s = "{"  # EOF in multi-line statement

奇怪的是,其他无意义的输入反而产生ERRORTOKEN值:

s = "$"
s = "'"

推荐文章

John Veridan · 在Python笔记本中仅选择列[无行]

7 年前

seanysull · 修改regex以包含连字符单词

7 年前

Ovaflow · 使用nltk中的标记集计算语音中的不同单词

7 年前

dustydojo · 在Java中,如何对标记中包含分隔符的字符串进行标记化?

7 年前

Laurent R · 根据空格和标点符号标记,标点符号保留

8 年前

mrfr · StreamTokenizer在遇到斜杠时停止

8 年前

Rose · Elasticsearch:术语搜索不适用于特殊字符

8 年前

Abdulrahman Bres Cristiana Chavez · 如何改进NLTK句子切分?

8 年前

vakarami · 用于提取文件名的模式标记器

8 年前

Konstantin · 用Ruby将单词分解成字母

8 年前