代码之家 › 专栏 › 技术社区 › TJ1

python:从返回额外字符的网页中提取电子邮件地址

email regex python

TJ1 · 技术社区 · 7 年前

Here 是包含电子邮件地址的示例网址。下面是我使用的代码:

from bs4 import BeautifulSoup
import requests
import re

url = 'https://viterbi.usc.edu/directory/faculty/Zadeh/Ali-Enayat'
page_response = requests.get(url, timeout=5)
soup = BeautifulSoup(page_response.content, "html.parser")
email = re.findall(r"[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+", soup.text)
print(email)

我正等着它回来 azadeh@usc.edu 作为电子邮件地址,但它会返回 740-4694azadeh@usc.edu . 我做错了什么?如何解决这一问题,使电子邮件提取对任何网页都有效?

1 回复 | 直到 7 年前

Ajax1234 7 年前

不需要使用 re 当全部能力 bs4 由您决定:

from bs4 import BeautifulSoup as soup
import requests
d = soup(requests.get('https://viterbi.usc.edu/directory/faculty/Zadeh/Ali-Enayat').text, 'html.parser')
email = d.find('div', {'class':'contactInformation'}).find_all('ul')[-2].find_all('li')[-1].text

输出:

'azadeh@usc.edu'

编辑:一种更通用的方法是将正则表达式应用于 BS4 对象:

re.findall(r"[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+", str(d))

输出:

['azadeh@usc.edu']

推荐文章

DotFX · RegEx捕获关键字前但括号后的所有内容

1 年前

user66001 · 正则表达式用于匹配有引号和无引号的文本,并且不匹配任何部分

1 年前

perlchamp · 为什么这也匹配?

1 年前

con · Negative Lookaward在perl正则表达式中不起作用

1 年前

Andrus · 如何在sql中查找第二个匹配项

1 年前

iato · 确保正则表达式不从命名材料中的数字中提取

1 年前

vr8ce · 非成对标记中特定字符的正则表达式

1 年前

MARTIN · 交换第一个和最后一个单词,反转所有中间的字符

1 年前

Carsten · 使用最近的搜索模式更改文本块

1 年前

Eric Marceau · Grep:有没有一种特殊的方法可以将“无字符”作为“字符位置”匹配的置换?

1 年前