|
|
1
3
你没有做错什么,这就是产品的工作原理。要补充前面提到的内容,定制并不容易。 正确的方法是为HTML创建自定义协议处理程序。这是一个自定义COM对象,它实现了几个接口。MOSS 2007 SDK有一个协议处理程序引用。 当我们这样做的时候,我们创建了一个ini文件,这样我们就可以定义我们想要爬网的元字段的类型(String、Int、DateTime)。然后,当您添加自定义属性时,所有内容都被正确解析。然后您可以像平常一样使用自定义属性。 |
|
|
2
1
您可以通过编写一个自定义web服务(基于ASMX或WCF)来破解一些东西,该服务本身会对ASP页面的元标记进行爬网。从那里,您可以将web服务结果拉入可搜索的BDC,然后在search results/BDC数据中可以有到原始页面的链接。我知道,它就像一个Rube Goldberg设备,但请相信我,它比弄清楚如何编写协议处理程序更容易。 |