|
1
2
我解决这个问题的方法是在谷歌上搜索特定的、相当独特的文本块,你要保护它们的版权。 尽管如此,如果您想构建自己的解决方案,以下是一些评论:
|
|
|
2
1
你可能会对片段检测更感兴趣。例如,很多页面上都会有“主页”这个词,你不在乎。但几乎不可能有很多页面在整个页面上都有完全相同的单词。因此,您可能希望比较和报告长度为4、5、6、7、8等的exct匹配的页面,以及每个长度的字数。指定一个分数和权重,如果你超过了你的“幻数”,报告可疑的施乐者。 对于C,您可以使用webbrowser()获取页面并相当容易地获取其文本。抱歉,没有现成的代码示例可以复制/粘贴,但msdn通常有相当好的示例。 |
|
|
giantjenga · 优化整数向量到二进制向量的转换 1 年前 |
|
|
Daniel Lobo · 使用约束进行优化 1 年前 |
|
Sergio · python中大量数字的乘法 1 年前 |
|
|
Sergey Dev · 临时表与表变量 2 年前 |
|
|
John · 减少C中的内存消耗++ 2 年前 |