代码之家 › 专栏 › 技术社区 › Alexandru Luchian

JS或任何其他语言钩子在HTML页面中加载资源

dhtml html javascript php c#

Alexandru Luchian · 技术社区 · 15 年前

我要做的是:

http获取网站的内容(比如google.com)
然后使用某种钩子或过滤器来捕获此页面尝试加载的所有资源(例如CSS文件、所有javascript文件、所有图像、所有iframe等)

首先要考虑的是解析下载的页面/代码并提取可能链接到资源的所有标记,但是这些标记非常多,其中一些非常棘手,如CSS中声明的图像背景,例如:

body {background-image:url('paper.gif');}

另外,我需要捕获所有打算通过JavaScript加载的资源。例如,有一个JS函数,它将生成一个URL,然后解释它来加载资源。

因此,我认为我需要一些钩子或过滤器/监视器。

编程语言并不重要(尽管在Unix机器上工作会很好)。

更新:这需要一个自动化的解决方案。

谢谢您。

3 回复 | 直到 15 年前

Pekka 15 年前

我假设您正在寻找一个完全自动化的解决方案。

有几种解析文件的方法(在所有主要的脚本语言中,基于wget和其他语言),但我所知道的任何一种方法实际上都不能解释 javascript(因为这就是我们要讨论的问题)。

我认为你唯一的选择就是在你的unix/linux设备上建立一个firefox(或其他现代浏览器)实例,给它一个URL,观察/阻止它试图建立的所有输出连接。在客户机PC上,这是Firebug中“net”选项卡的内容。我不知道,如果不重写浏览器的某些部分,这是否可以实现自动化以及在多大程度上实现自动化。也许吧 Selenium RC 或者,Selenium套件中的另一个工具就是一个起点。

SLaks 15 年前

最简单的方法是写一个 Fiddler 加载项。

Oded 15 年前

你可以设置一个代理,就像 fiddler 看看流量——除了页面的初始调用之外,其他的都是请求的额外资源。

推荐文章

code-geek · Jquery根据单选按钮选择隐藏或显示文本字段

10 月前

Niobos · 如何/是否有方法使通用算法函数同时与同步和异步函数一起工作?

10 月前

Alex · 在轻量级中同时解构和不解构变量

11 月前

Ângelo Rigo · ReactJS映射:如何迭代[关闭]

11 月前

bairog · 从按属性筛选的对象数组字典中创建值数组

11 月前

KaiMcKiernan · 基于Math.random()的函数在另一个函数内不起作用[关闭]

11 月前

David Jeong · 浏览器不会为浏览器自动添加的某些标头发送CORS预检请求吗?

11 月前

user29519291 · 为不同的变量创建一个带有可重用Click函数的简单菜单

11 月前

user3472810 · Angular@Output/EventEmitter返回undefined

11 月前

lokiuucx · JS对象属性返回未定义,尽管对象属性应该有值

11 月前