代码之家  ›  专栏  ›  技术社区  ›  Michael Hecht

tiff输出Imagemagick与Ghostscript的质量对比

  •  1
  • Michael Hecht  · 技术社区  · 7 年前

    我目前正在研究Google tesseract ocr工作流。从PDF生成tif有两个选项:

    1. gswin64c。exe-r300x300-dBATCH-dNOPAUSE-sDEVICE=tiff24nc-sOutputFile=thetif。tif-S压缩=lzw thepdf。pdf-c退出-q

    2. Imagemagick-转换:

      convert-background white-alpha off-density 300 thepdf。pdf-深度8-压缩压缩压缩thetif。畅通节能法

    对于(任意)示例文件,gswin64c提取的tif大约是转换结果的五倍。此外,使用convert(!)时,文本更平滑,质量更高然后使用gswin64c。因此,我更喜欢使用convert,但不幸的是,从多页pdf中提取30页(170秒对40秒)的时间大约是gswin64c的4倍。

    有没有机会提高gswin64c的质量(而不必过度放大输出文件)或加快转换?

    2 回复  |  直到 6 年前
        1
  •  2
  •   KenS    7 年前

    在我看来,这似乎是速度与质量之间的通常权衡。你喜欢转换质量,但它太慢,你喜欢Ghostscript的速度,但你觉得质量较低。

    当然这表明你不能两者兼得?

    无论如何,你知道ImageMagick convert调用Ghostscript来呈现PDF文件吗?所以无论你使用哪种路径,你都在使用Ghostscript。

    当然,convert完全有可能是对图像进行后处理,但我怀疑不是这样。如果您研究convert是如何工作的,您可能会发现它向Ghostscript提供了什么命令行,并使用它。

    当然,使用消除混叠将产生更平滑的文本(如果您喜欢模糊文本),但需要更长的时间。

        2
  •  0
  •   Bonzo    7 年前

    输入图像通常在转换之后,但在您的情况下-密度将首先出现。

    我会尝试这样的方法,看看会发生什么:

    imagemagick - convert -density 300 thepdf.pdf -background white -alpha off -depth 8 -compress zip thetif.tif