代码之家  ›  专栏  ›  技术社区  ›  Mohamed Thasin ah

如何在beautiful soup中提取文本直到<br>标记

  •  1
  • Mohamed Thasin ah  · 技术社区  · 6 年前

    我想从div提取到 <br> 标签。如何做到这一点,

    <div class="content-cell mdl-cell mdl-cell--6-col mdl-typography--body-1">Watched a video that has been removed<br>Aug 17, 2018, 2:34:28 PM UTC</div>
    

    我用过这个,

    print  content.text
    

    它输出,

    Watched a video that has been removedAug 17, 2018, 2:34:28 PM UTC
    

    但预期产出是, 观看了已删除的视频

    之后我不想再发短信了 <br>

    更何况要特别追查 < 我可以试试这个,

    content.find('br').text
    

    现在我想做下面的事

    result= (content.find('br').text).replace((content.find('br').text),'')
    

    有没有其他更好的方法来避免我使用beautifulsoup的额外字符串替换方法?

    1 回复  |  直到 6 年前
        1
  •  2
  •   Giorgos Myrianthous    6 年前
    from bs4 import BeautifulSoup
    
    html="""<div class="content-cell mdl-cell mdl-cell--6-col mdl-typography--body-1">Watched a video that has been removed<br>Aug 17, 2018, 2:34:28 PM UTC</div>"""
    soup = BeautifulSoup(html)
    print(soup.find("div").contents[0])
    

    输出应为:

    Watched a video that has been removed