代码之家 › 专栏 › 技术社区 › Fluffy

如何获取lxml中元素的路径?

lxml xpath python

Fluffy · 技术社区 · 16 年前

我正在使用Python中LXML的xpath在HTML文档中搜索。如何获得某个元素的路径?下面是Ruby Nokogiri的例子:

page.xpath('//text()').each do |textnode|
    path = textnode.path
    puts path
end

例如“打印” /HTML/BODY/DIV/DIV[1]/DIV[1]/P/TEXT()[1] 这是我想在python中得到的字符串。

4 回复 | 直到 9 年前

nosklo 16 年前

使用 getpath 从elementtree对象。

from lxml import etree

root = etree.fromstring('<foo><bar>Data</bar><bar><baz>data</baz>'
                        '<baz>data</baz></bar></foo>')

tree = etree.ElementTree(root)
for e in root.iter():
    print tree.getpath(e)

印刷品

/foo
/foo/bar[1]
/foo/bar[2]
/foo/bar[2]/baz[1]
/foo/bar[2]/baz[2]

mmmmmm 11 年前

见 Xpath and XSLT with lxml from the lxml documentation 这将给出包含文本的元素的路径

一个例子是

import cStringIO
from lxml import etree

f = cStringIO.StringIO('<foo><bar><x1>hello</x1><x1>world</x1></bar></foo>')
tree = lxml.etree.parse(f)
find_text = etree.XPath("//text()")

# and print out the required data
print [tree.getpath( text.getparent()) for text in find_text(tree)]

# answer I get is 
>>> ['/foo/bar/x1[1]', '/foo/bar/x1[2]']

hostingutilities.com 13 年前

root = etree.parse(open('tmp.txt'))

for e in root.iter():
    print root.getpath(e)

shrewmouse 9 年前

如果代码部分中的所有内容都是元素,并且您希望元素的xpath执行此操作,那么 element.getroottree().getpath(element) 会完成任务的。

from lxml import etree

xml = '''
<test>
    <a/>
    <b>
       <i/>
       <ii/>
    </b>
</test>
'''
tree = etree.fromstring(xml)

for element in tree.iter():
    print element.getroottree().getpath(element)

推荐文章

Monica · 使用Selenium和Python在没有url的情况下单击下载文件

3 年前

JobProcessTask · 如何读取此xpath表达式?

3 年前

ÐÐ½Ð´ÑÐµÐ¹ Ð¡Ð¼Ð¸ÑÐ½Ð¾Ð² · 通过xplpath从xml加载字段时出现问题

3 年前

johns7843 · 如何使用xpath收集所有HREF?Selenium-Python

3 年前

js1069 · 如何通过匹配第一个元素中的文本来获取第二个元素。在Selenium中,Python

3 年前

Tony · IMPORTXML的正确XPATH(用于Yahoo Finance)

3 年前

Astro-Otter · 在DOMXpath中使用preg_match来匹配文本contgent

3 年前

mathias5986 · HTML Selenium Python点击href链接

3 年前

lord stock · 硒在iframe中引发与下拉菜单相互作用的非接触元素异常

3 年前

Tyler Moore · 如何在Selenium for Python中使用多个属性(包括部分字符串匹配)和find_元素

3 年前