Foxtable(狐表)用户栏目专家坐堂 → 如何将PDF转成Excel或读取里面的文本信息


  共有3877人关注过本帖树形打印复制链接

主题:如何将PDF转成Excel或读取里面的文本信息

美女呀,离线,留言给我吧!
gareny
  1楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:幼狐 帖子:68 积分:1045 威望:0 精华:0 注册:2015/7/28 11:42:00
如何将PDF转成Excel或读取里面的文本信息  发帖心情 Post By:2019/1/6 10:03:00 [只看该作者]

1、如何将PDF转成Excel
2、如何读取PDF文件里面的文本信息

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  2楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2019/1/6 20:57:00 [只看该作者]


 回到顶部
美女呀,离线,留言给我吧!
gareny
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:幼狐 帖子:68 积分:1045 威望:0 精华:0 注册:2015/7/28 11:42:00
  发帖心情 Post By:2019/1/7 9:44:00 [只看该作者]

针对附件我试了一下,就是没内容,请你帮我测试一下

 回到顶部
美女呀,离线,留言给我吧!
gareny
  4楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:幼狐 帖子:68 积分:1045 威望:0 精华:0 注册:2015/7/28 11:42:00
上传附件  发帖心情 Post By:2019/1/7 9:46:00 [只看该作者]

 下载信息  [文件大小:   下载次数: ]
点击浏览该文件:test2.rar

针对附件我试了一下,就是没内容,请你帮我测试一下
[此贴子已经被作者于2019/1/7 9:48:56编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2019/1/7 10:35:00 [只看该作者]

需要换一种方法。

 

引用pdfbox https://pan.baidu.com/s/1i5FpQvV

 

执行代码,如

 

Dim doc As org.apache.pdfbox.pdmodel.PDDocument = Nothing
Try
    doc = org.apache.pdfbox.pdmodel.PDDocument.load("d:\test2.pdf")
    Dim pages = doc.getDocumentCatalog().getAllPages()
    Dim pdfStripper = new org.apache.pdfbox.util.PDFTextStripper
    Dim text = pdfStripper.getText(doc)
    msgbox(text)
catch ex As exception
    msgbox(ex.message)
Finally
    If doc IsNot Nothing Then
        doc.close()
    End If
End Try


 回到顶部
美女呀,离线,留言给我吧!
gareny
  6楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:幼狐 帖子:68 积分:1045 威望:0 精华:0 注册:2015/7/28 11:42:00
  发帖心情 Post By:2019/1/8 10:30:00 [只看该作者]

1、你发的文件包似乎有误,拷贝到安装目录下 有个文件 fontbox-1.8.9.dll,而引用中的却是pdfbox-1.8.9.dll
2、我将 拷贝到安装目录下 的文件 拷贝到安装目录,将引用dll,也拷贝到安装目录,然后再引用指定的文件,拷贝上面的代码提示错误
 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:错误信息.rar

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  7楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2019/1/8 10:57:00 [只看该作者]

1、把dll全部拷贝到安装目录下;

 

2、在foxtable里面引用三个dll。


 回到顶部
美女呀,离线,留言给我吧!
gareny
  8楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:幼狐 帖子:68 积分:1045 威望:0 精华:0 注册:2015/7/28 11:42:00
  发帖心情 Post By:2019/1/8 11:02:00 [只看该作者]

ok,数据可以读取了,但现在问题是读出来的数据很多本来PDF上有空格的,但是现在连在一起了,没办法分割。

而且发现 少了一栏 Branch Plant 对应的数据 “601172” “601177”
[此贴子已经被作者于2019/1/8 11:07:32编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  9楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2019/1/8 11:09:00 [只看该作者]

以下是引用gareny在2019/1/8 11:02:00的发言:
ok,数据可以读取了,但现在问题是读出来的数据很多本来PDF上有空格的,但是现在连在一起了,没办法分割。

而且发现 少了一栏 Branch Plant 对应的数据
[此贴子已经被作者于2019/1/8 11:05:14编辑过]

 

没办法。只能这样了。

 

不然,你可以尝试一些【付费】的pdf控件,如 https://www.foxitsoftware.cn/products/sdk/NETsdk/

 


 回到顶部
美女呀,离线,留言给我吧!
gareny
  10楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:幼狐 帖子:68 积分:1045 威望:0 精华:0 注册:2015/7/28 11:42:00
  发帖心情 Post By:2019/1/24 16:07:00 [只看该作者]

读取文件 基本 上可以了,但是在打印PDF的时候提示错误:
Dim doc As org.apache.pdfbox.pdmodel.PDDocument = Nothing
doc = org.apache.pdfbox.pdmodel.PDDocument.load("d:\test2.pdf")
doc.Print()

提示错误为:PrinterJob not found: sun.awt.windows.WPrinterJob

 回到顶部
总数 11 1 2 下一页