代码之家  ›  专栏  ›  技术社区  ›  Todd Owen

在SharePoint爬网期间以编程方式生成其他属性

  •  1
  • Todd Owen  · 技术社区  · 15 年前

    我之所以需要在爬网时这样做,是因为内容来自SharePoint外部(来自文件共享),因此我无法将元数据直接添加到文档本身。有多种不同的文档类型,因此自定义IFilter也不是一个选项。

    1 回复  |  直到 15 年前
        1
  •  2
  •   Kelly S. French    15 年前

    您可以尝试使用自定义协议处理程序。 这允许您将元数据应用于文件,而不管其类型如何。将其与自定义内容源配对,就可以针对特定的网络共享或一组共享。

    有关协议处理程序(和属性处理程序)的资料可以在文件过滤开发的地方找到,但不用担心。下面这本书很好地说明了两者的区别。

    Microsoft Windows Search 3.x SDK 是个不错的开始。它有一个示例IFilter实现,从XML文件捕获属性。

    我发现有一本书很有帮助,那就是Patrick Tisseghem和Lars Fastrup写的《索引和搜索引擎内部:Microsoft Office SharePoint Server 2007》。第9章讨论了自定义过滤器、协议处理程序甚至内容源的实现和部署。这个版本的协议处理程序展示了如何从文件系统抓取元数据,例如修改日期。通过定义自定义内容源,您可以捕获文件元数据,而不必考虑文件的类型,这正是您关于要从中捕获属性的许多不同文件类型的观点。

    我在上找到了这个论坛/博客 IFilter development

    writing a filter for SharePoint 是经常提到的,对不同方面有更好的解释,但我提到的书涵盖了更广泛的范围,即协议处理程序。

    MSDN具有良好的 overview of the indexing process