Foxtable(狐表)用户栏目专家坐堂 → 如何更准确提取PDF对应位置的信息?


  共有4313人关注过本帖树形打印复制链接

主题:如何更准确提取PDF对应位置的信息?

帅哥哟,离线,有人找我吗?
xluoping
  1楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:小狐 帖子:373 积分:3811 威望:0 精华:0 注册:2016/4/2 12:11:00
如何更准确提取PDF对应位置的信息?  发帖心情 Post By:2016/4/8 14:57:00 [只看该作者]

foxtable确实是一个不错的开发软件。

我已经知道在 PDF中提取信息:

Dim reader As New iTextSharp.text.pdf.PdfReader("D:\HJ160329ME1006+空白6+非甲烷总烃.pdf")
Dim n As Integer = reader.NumberOfPages
Dim str As String = ""
For i As Integer = 1 To n
    Dim strategy As object = New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy()
    Dim currentText As String = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(Reader, i, strategy)
    
    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currentText)))
    str &= currentText
    
Next
msgbox(str)
reader.Close()

但是,如附件的PDF中,我应该如何准确的提取 9790Ⅱ  、JC-01-002、2016-03-30 08:59、以及  1  总烃    5.6820,2  甲烷   1.7391  ,或者还有  3  某物质   0.0000 ......到表中!


以上,请求帮助



 回到顶部
帅哥哟,离线,有人找我吗?
大红袍
  2楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:贵宾 帖子:39310 积分:196782 威望:0 精华:1 注册:2015/4/25 9:23:00
  发帖心情 Post By:2016/4/8 15:16:00 [只看该作者]

先想办法提取出来,然后再根据内容截取需要的数据,不同的内容需要做不同的分析。请上传实例。

 回到顶部
帅哥哟,离线,有人找我吗?
hanxuntx
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:九尾狐 帖子:2609 积分:16926 威望:0 精华:11 注册:2011/9/20 16:13:00
  发帖心情 Post By:2016/4/10 17:13:00 [只看该作者]

mark
可以读取表格内容吗?

 回到顶部
帅哥哟,离线,有人找我吗?
大红袍
  4楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:贵宾 帖子:39310 积分:196782 威望:0 精华:1 注册:2015/4/25 9:23:00
  发帖心情 Post By:2016/4/10 22:02:00 [只看该作者]

以下是引用hanxuntx在2016/4/10 17:13:00的发言:
mark
可以读取表格内容吗?

 

不是只要是文字都能提取出来吗?


 回到顶部
帅哥哟,离线,有人找我吗?
FOTOER
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:幼狐 帖子:154 积分:1535 威望:0 精华:0 注册:2011/8/29 20:48:00
  发帖心情 Post By:2021/11/7 14:05:00 [只看该作者]

学习了图片点击可在新窗口打开查看

 回到顶部