标题：pdf中获取内容包括表格内容

1楼

qaz17909 发表于：2024/3/15 21:36:00

有个业务需要将pdf中的内容提取出来，pdf中有些字段内容比如编号、时间等，然后pdf中还有表格，需要将表格中的内容也提取出来。

2楼

有点蓝 发表于：2024/3/16 8:54:00

这个需要自行研究了，网上搜搜iTextSharp的用法

3楼

qaz17909 发表于：2024/3/17 11:07:00

可以提取了，但是发现有些pdf提取后的中文是乱码，这个应该如何解码？上传的两个pdf文档一个正常，一个中文乱码

下载信息 [文件大小：下载次数： ]
点击浏览该文件:pdf.rar

4楼

有点蓝 发表于：2024/3/17 20:45:00

去掉这句有没有问题？

pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

如果不行，自己试试不同编码的结果

5楼

qaz17909 发表于：2024/3/18 9:10:00

去掉这句也是不行的，我改了加粗的地方，但是还是不行

pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

6楼

有点蓝 发表于：2024/3/18 9:15:00

pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

什么所有红色的地方都改为不同的编码试试。如果不知道pdf到底使用的什么编码，只能自己试试所有编码的组合了

7楼

qaz17909 发表于：2024/5/9 13:19:00

三楼的这个附件是我原先上传的，为什么现在下载下来不能用了？

[此贴子已经被作者于2024/5/9 13:19:40编辑过]

8楼

有点蓝 发表于：2024/5/9 13:31:00

提示什么错误？

9楼

qaz17909 发表于：2024/5/9 13:42:00

好像又可以了，还有问题，可否用代码将pdf格式的文件，另存为txt文本文件？

10楼

有点蓝 发表于：2024/5/9 14:35:00

不能的

共10 条记录, 每页显示 10 条, 页签: [1]