代码之家 › 专栏 › 技术社区 › barteloma

如何阅读表格?

pdf-conversion itext pdf c#

barteloma · 技术社区 · 7 年前

我有一个pdf格式的时间表。

            (1)     (2)     (3)
            09:00   10:30   11:30            
Monday      12C     11B     10A
Tuesday     10K     10K     9A
Wednesday           7A
Thursday    7B      7B
Friday      6A              11B

我正在使用iTextSharp阅读所有文本。

    private static string ReadFile(string path)
    {
        using (var reader = new PdfReader(path))
        {
            var text = new StringBuilder();

            for (var i = 1; i <= reader.NumberOfPages; i++)
                text.Append(PdfTextExtractor.GetTextFromPage(reader, i));

            return text.ToString();
        }
    }

文本响应行如下:

(1) (2) (3) 
09:00 10:30 11:30
12C 11B 10A
Monday
10K 10K 9A
Tuesday
7A
Wednesday
B 7B
Thursday
6A  11B
Friday

所以我不明白哪个班在哪个时间?例如,星期三有7A班,但是什么时候(09:00或10:30或11:30)? 如果它写一个空白字符,我可以理解。

(1) (2) (3) 
09:00 10:30 11:30
12C 11B 10A
Monday
10K 10K 9A
Tuesday
&nbsp 7A &nbsp
Wednesday
B 7B &nbsp
Thursday
6A &nbsp 11B
Friday

这可以用iTextSharp吗?

1 回复 | 直到 7 年前

Joris Schellekens 7 年前

这在一般情况下是不可能的。

如果未标记PDF文档,则文档本身不包含结构信息。或者简单地说,文档不知道哪些部分是表、表行甚至段落。

从未标记的pdf文档中提取结构信息是困难的。如果不是一般情况下说不可能的话。

使用pdf2data,您可以实现这一点。需要注意的是,必须预先定义模板。所以你需要告诉软件在哪里可以找到一张桌子。

你可以看看 SimpleTextExtractionStrategy 在里面 iText . 它本质上处理所有呈现信息,并决定何时将文本连接到现有缓冲区。

在代码中的某个时刻,它决定如果缓冲区已经以空白结尾,则不应再追加空白。

我建议您创建自己的实现 简单扩展策略 重写此行为并始终插入空白。

推荐文章

Marcos Silva · 不使用X-Object压缩PDF

7 年前

Arsiwaldi · 如何将PDF文档拆分为小文档

7 年前

Francisco Saez · 如何扩展现有PDF的页面大小以在iText中添加页脚

7 年前

A. Schmidt · c#itextsharp绝对文本位置多行

7 年前

JasonY · 在iText5中,如果可能,如何将PdfTemplate添加到PdfStamper中?

7 年前

sillo01 · 为什么使用itext7。NET使用的内存比itextsharp5多得多?

7 年前

Mario Rossi · 将HTML转换为PDF/A时,我得到“所有字体都必须嵌入。这一个不是:Times Bold”

7 年前

Sau001 · 从itextsharp移植到itext 7-如何从PDF文档中获取文本的字体权重?

7 年前

Dhiraj Mane · 如何使用itextsharp读取marge可填充pdf数据

7 年前

Dashrath · 在样式中添加高度/宽度时,图像不会显示在itextsharp生成的html到pdf文档中

7 年前