代码之家  ›  专栏  ›  技术社区  ›  regex

在SQL Server文本列中查找常用短语

  •  0
  • regex  · 技术社区  · 15 年前

    Short Desc:

    我很好奇是否可以使用SQL Analysis Services或其他SQL Server服务为我挖掘一些数据,这些数据将显示数据集中SQL文本字段之间的共性。

    长DESC

    我正在查看的数据子集包含大约10000行文本块,这些文本块在问题跟踪(票务)软件中用作注释列。我想使用开箱即用的东西(不必构建东西),它可以解析所有的行,并在“注释”列中找到常用的字节序列。换句话说,我想找到常用短语(两到三个单词短语,所以文本blob的9-20个字符部分)。这将帮助我更好地确定同事的笔记是否包含我们可以在故障排除流程中标准化的类似短语(故障排除技术)。

    期末票据

    我真的不想构建一个应用程序来实现这一点,因为我的方法可能不是实现这一点的最有效方法。

    或者,如果没有人知道现成的解决方案,您能推荐我在代码中可以使用的任何算法吗?我可以在代码中对一组值进行字符串比较?

    希望这一切都有意义。如果有什么需要澄清的,请在评论中告诉我。

    1 回复  |  直到 15 年前
        1
  •  1
  •   Jamie MacLennan    15 年前

    可以使用SQL Server Integration Services(Enterprise和Dev版本)中的文本挖掘转换来执行术语查找和术语提取,然后使用Analysis Services中的关联规则来构建术语关联模型。有一个 aging tutorial 这仍然有效(需要免费登录)

    我们将在今年晚些时候宣布一些与此相关的消息——如果您对测试版感兴趣,可以在我们的网站(predixinsoftware.com)上留下反馈。

    -杰米·麦克伦南 首席技术官 Predixion软件