代码之家  ›  专栏  ›  技术社区  ›  Messia

使用python-docx从docx提取表时丢失一些字符

  •  0
  • Messia  · 技术社区  · 2 年前

    当我使用python-docx从docx中提取表时,结果会丢失一些字符。 这是我的代码:

    file = "test.docx"
    document = Document(os.path.join(path,docxf))
    table = document.tables[0]
        
    keys = ('item','dot')
    for row in table.rows:
        text = (cell.text for cell in row.cells)   
        row_data = dict(zip(keys, text))    
        print(row_data)
    

    预期结果应为{“项”:“H01C/10”,“文档”:“.”},{项“:”H01L22/10“,”文档“:”…“} 但实际结果是{“项目”:“H/10”,“文档”:“.”},丢失了“01C”;{item':'H22/10','doc':'…'},丢失“01L”

    但如果文件的格式是原始docx,而不是从doc转换而来的docx文件,则不会发生此错误。

    为什么会发生这种情况?有什么办法解决这个问题吗?

    0 回复  |  直到 2 年前