这个需要自行研究了,网上搜搜iTextSharp的用法
可以提取了,但是发现有些pdf提取后的中文是乱码,这个应该如何解码?上传的两个pdf文档一个正常,一个中文乱码
去掉这句有没有问题?
pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))
如果不行,自己试试不同编码的结果
去掉这句也是不行的,我改了加粗的地方,但是还是不行
pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))
pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))
什么所有红色的地方都改为不同的编码试试。如果不知道pdf到底使用的什么编码,只能自己试试所有编码的组合了
三楼的这个附件是我原先上传的,为什么现在下载下来不能用了?
[此贴子已经被作者于2024/5/9 13:19:40编辑过]
好像又可以了,还有问题,可否用代码将pdf格式的文件,另存为txt文本文件?