当我使用python-docx从docx中提取表时,结果会丢失一些字符。
这是我的代码:
file = "test.docx"
document = Document(os.path.join(path,docxf))
table = document.tables[0]
keys = ('item','dot')
for row in table.rows:
text = (cell.text for cell in row.cells)
row_data = dict(zip(keys, text))
print(row_data)
预期结果应为{“项”:“H01C/10”,“文档”:“.”},{项“:”H01L22/10“,”文档“:”…“}
但实际结果是{“项目”:“H/10”,“文档”:“.”},丢失了“01C”;{item':'H22/10','doc':'…'},丢失“01L”
但如果文件的格式是原始docx,而不是从doc转换而来的docx文件,则不会发生此错误。
为什么会发生这种情况?有什么办法解决这个问题吗?