Foxtable(狐表)用户栏目专家坐堂 → 关于PDF文件的处理


  共有4978人关注过本帖树形打印复制链接

主题:关于PDF文件的处理

帅哥哟,离线,有人找我吗?
有点甜
  1楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/4/23 14:34:00 [显示全部帖子]

如果读取为空,则是你的pdf是图片,不是文本,不能读取。

 

试试使用这种方式 http://www.foxtable.com/bbs/dispbbs.asp?boardid=2&id=117794&authorid=0&page=0&star=1

 

识别图片文字,参考 http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=108960&skin=0

 

 

 


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  2楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/4/23 15:26:00 [显示全部帖子]

看2楼的方法测试。

 

如果还有疑问,上传实例测试。


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/4/23 19:04:00 [显示全部帖子]

2楼例子,你需要引用dll的,去看原帖;

 

pdfbox的例子,参考 http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=104162&skin=0

 

 


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  4楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/4/24 11:08:00 [显示全部帖子]

你的pdf文件本身有问题,无法处理你这种的文件。

 

 

[此贴子已经被作者于2018/4/24 11:10:19编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/4/24 11:23:00 [显示全部帖子]

1、你的pdf文件另存为pdf(使用软件打开,然后另存一下)

 

2、引用pdfbox,执行下面代码

 

http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=104162&skin=0

 

Dim doc As org.apache.pdfbox.pdmodel.PDDocument = Nothing
Try
    doc = org.apache.pdfbox.pdmodel.PDDocument.load("d:\abc.pdf")
    Dim pages = doc.getDocumentCatalog().getAllPages()
    Dim pdfStripper = new org.apache.pdfbox.util.PDFTextStripper
    Dim text = pdfStripper.getText(doc)
    msgbox(text)
catch ex As exception
    msgbox(ex.message)
Finally
    If doc IsNot Nothing Then
        doc.close()
    End If
End Try

 

 


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  6楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/4/24 12:15:00 [显示全部帖子]

以下是引用ap9709130在2018/4/24 11:55:00的发言:
老师

另存后可以读取了,就是读取时的排版有点乱.和原格式相差比较大.多谢!

 

这个没办法,如果想读取,建议使用付费的pdf组件,如 FoxitReader_AX_Pro.ocx

 

https://www.foxitsoftware.cn/

 


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  7楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/4/26 12:58:00 [显示全部帖子]

1、所需的dll文件要拷贝到你的publish文件夹下;

 

2、执行什么代码有问题?具体实例发上来测试。


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  8楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/4/26 16:43:00 [显示全部帖子]

以下是引用ap9709130在2018/4/26 16:23:00的发言:
老师,

找到原因了.就是Dll 没有copy 到pubish 下. 如果升级前在文件那里选那几个也没用,因为选了的,升完级后只能copy 到 Project 目录下,还要自己手动COPY 出来.这点很不方便,下次升级可以改一下.

 

参考

 

http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=116384&skin=0

 


 回到顶部