代码之家  ›  专栏  ›  技术社区  ›  saurabh vyas

将wikitext转换为纯文本的最简单方法

  •  0
  • saurabh vyas  · 技术社区  · 8 年前

    https://github.com/spencermountain/wtf_wikipedia ,它确实对一篇文章单独起作用,但在迭代所有文章时。txt文件在一个文件夹中,我得到以下错误,我有困难的时间调试。

    /home/saurabh/node\u modules/wtf\u wikipedia/src/index。js:27让arr= ^

    TypeError:无法将未定义或null转换为对象 at对象。纯文本(/home/saurabh/node\u modules/wtf\u wikipedia/src/index.js:27:20) at阵列。forEach() at模块_编译(module.js:573:30) at对象。模块_扩展。。js(模块js:584:10) at模块。负载(模块js:507:32) 在tryModuleLoad(模块js:470:12)

    代码如下: https://gist.github.com/saurabhvyas/1b719f027984ea33864a15fd58bf1b9f

    1 回复  |  直到 8 年前
        1
  •  2
  •   Sam Wilson    8 年前

    我会推荐 pandoc ,它可以从wikitext转换为纯文本(以及许多其他格式)。

    for F in *.wikitext; do
        pandoc -f mediawiki -o "$F.txt" "$F"
    done