代码之家 › 专栏 › 技术社区 › Recursion

用Python在XML或HTML文件的标记之间获取数据的简单方法?

xml html python

Recursion · 技术社区 · 15 年前

我正在使用python,需要查找和检索标记之间的所有字符数据:

<tag>I need this stuff</tag>

然后我想将找到的数据输出到另一个文件。我只是在寻找一种非常简单有效的方法来做到这一点。

如果您可以发布一个快速的代码片段来描述易用性。因为我很难理解解析器。

6 回复 | 直到 15 年前

ghostdog74 15 年前

没有外部模块,如

>>> myhtml = """ <tag>I need this stuff</tag>
... blah blah
... <tag>I need this stuff too
... </tag>
... blah blah """
>>> for item in myhtml.split("</tag>"):
...   if "<tag>" in item:
...       print item [ item.find("<tag>")+len("<tag>") : ]
...
I need this stuff
I need this stuff too

Andrew Hare 15 年前

Beautiful Soup 是一个很好的用于Python的HTML/XML解析器:

漂亮的汤是一个python html/xml 为快速周转而设计的解析器类似屏幕抓取的项目。三功能强大:

如果你加价不好,这道漂亮的汤就不会呛人。它产生了分析树,使像你的原始文件一样有意义。这个通常足够收集你需要的数据就会跑掉。

美丽的汤提供了一些简单的方法和蟒蛇习语导航、搜索和修改解析树:用于分析记录并提取所需内容。您不必创建自定义每个应用程序的分析器。

漂亮的汤自动将传入的文档转换为Unicode 以及发送到UTF-8的文件。你不用考虑编码, 除非文档没有指定编码和靓汤不能自动检测一个。那么你只需要指定原始编码。

Aiden Bell 15 年前

我很喜欢分析 element tree 然后使用 element.text 和 element.tail .

它也有 XPath 喜欢搜索

>>> from xml.etree.ElementTree import ElementTree
>>> tree = ElementTree()
>>> tree.parse("index.xhtml")
<Element html at b7d3f1ec>
>>> p = tree.find("body/p")     # Finds first occurrence of tag p in body
>>> p
<Element p at 8416e0c>
>>> p.text
"Some text in the Paragraph"
>>> links = p.getiterator("a")  # Returns list of all links
>>> links
[<Element a at b7d4f9ec>, <Element a at b7d4fb0c>]
>>> for i in links:             # Iterates through all found links
...     i.attrib["target"] = "blank"
>>> tree.write("output.xhtml")

Shravya K 8 年前

我就是这样做的:

    (myhtml.split('<tag>')[1]).split('</tag>')[0]

告诉我它是否有效!

torger 15 年前

使用xpath和lxml;

from lxml import etree

pageInMemory = open("pageToParse.html", "r")

parsedPage = etree.HTML(pageInMemory)

yourListOfText = parsedPage.xpath("//tag//text()")

saveFile = open("savedFile", "w")
saveFile.writelines(yourListOfText)

pageInMemory.close()
saveFile.close()

比清汤快。

如果你想测试你的xpath-我发现 FireFox's Xpather extremely helpful .

进一步说明:

E.G. Cortes 8 年前

def value_tag(s):
    i = s.index('>')
    s = s[i+1:]
    i = s.index('<')
    s = s[:i]
    return s

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

6 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

6 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

6 月前

user29715306 · from_users=和chats=电视节目中的差异

6 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

6 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

6 月前

prayner · 更新嵌套字典包含列表中的项

6 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

6 月前

Dave · 如何在for循环中修改列表值

6 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

6 月前