以文本方式查看主题

-  Foxtable(狐表)  (http://foxtable.net/bbs/index.asp)
--  专家坐堂  (http://foxtable.net/bbs/list.asp?boardid=2)
----  pdf中获取内容包括表格内容  (http://foxtable.net/bbs/dispbbs.asp?boardid=2&id=190949)

--  作者:qaz17909
--  发布时间:2024/3/15 21:36:00
--  pdf中获取内容包括表格内容
有个业务需要将pdf中的内容提取出来,pdf中有些字段内容比如编号、时间等,然后pdf中还有表格,需要将表格中的内容也提取出来。
--  作者:有点蓝
--  发布时间:2024/3/16 8:54:00
--  
这个需要自行研究了,网上搜搜iTextSharp的用法
--  作者:qaz17909
--  发布时间:2024/3/17 11:07:00
--  
可以提取了,但是发现有些pdf提取后的中文是乱码,这个应该如何解码?上传的两个pdf文档一个正常,一个中文乱码
 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:pdf.rar



--  作者:有点蓝
--  发布时间:2024/3/17 20:45:00
--  
去掉这句有没有问题?

pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

如果不行,自己试试不同编码的结果

--  作者:qaz17909
--  发布时间:2024/3/18 9:10:00
--  
去掉这句也是不行的,我改了加粗的地方,但是还是不行
pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

--  作者:有点蓝
--  发布时间:2024/3/18 9:15:00
--  
pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

什么所有红色的地方都改为不同的编码试试。如果不知道pdf到底使用的什么编码,只能自己试试所有编码的组合了

--  作者:qaz17909
--  发布时间:2024/5/9 13:19:00
--  
三楼的这个附件是我原先上传的,为什么现在下载下来不能用了?
[此贴子已经被作者于2024/5/9 13:19:40编辑过]

--  作者:有点蓝
--  发布时间:2024/5/9 13:31:00
--  
提示什么错误?
--  作者:qaz17909
--  发布时间:2024/5/9 13:42:00
--  
好像又可以了,还有问题,可否用代码将pdf格式的文件,另存为txt文本文件?
--  作者:有点蓝
--  发布时间:2024/5/9 14:35:00
--  
不能的