代码之家 › 专栏 › 技术社区 › Ram Rachum

使用Python检索类似Facebook的链接摘要(标题、摘要、相关图片)

summary screen-scraping semantics facebook python

Ram Rachum · 技术社区 · 15 年前

。当你提交一个链接到你的Facebook状态时,他们的系统会退出并检索一个建议的 title , summary 通常一个或多个相关的 image 。

。

我真的很想先从别人的经验中学习,然后再插手。

为了清楚起见,当给定网页的URL时,我希望能够检索:

The title: Probably just the <title> tag but possibly the <h1> 。
这一页的一段摘要。
。(棘手的部分是过滤掉不相关的图像,如横幅或圆角)

。

2 回复 | 直到 12 年前

Troy Alford 12 年前

BeautifulSoup 很适合完成大部分工作。

基本上,您只需初始化 soup 对象,然后执行以下操作以提取您感兴趣的内容:

title = soup.findAll('title')
images = soup.findAll('img')

然后,您可以根据 url 使用 urllib2 .

。?例如,圆角很小,通常只有1-2种颜色。

As for the page summary, that may be a bit more difficult, but I've been doing something like this:

我用 BeautifulSoup 从 html 通过使用: .findAll ,然后 .extract .
我使用以下方法获取剩余文本: .join(soup.findAll(text = True))

In your application, perhaps you could use this "text" 内容作为页面摘要?

我希望这能有帮助。

ducu 11 年前

下面是一个完整的解决方案: https://github.com/svven/summary

>>> import summary
>>> s = summary.Summary('http://stackoverflow.com/users/76701/ram-rachum')
>>> s.extract()
>>> s.title
u'User Ram Rachum - Stack Overflow'
>>> s.description
u'Israeli Python hacker.'
>>> s.image
https://www.gravatar.com/avatar/d24c45635a5171615a7cdb936f36daad?s=128&d=identic
on&r=PG
>>>

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

5 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

5 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

5 月前

user29715306 · from_users=和chats=电视节目中的差异

5 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

6 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

6 月前

prayner · 更新嵌套字典包含列表中的项

6 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

6 月前

Dave · 如何在for循环中修改列表值

6 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

6 月前