Foxtable(狐表)用户栏目专家坐堂 → [求助]网页信息的读取


  共有5319人关注过本帖树形打印复制链接

主题:[求助]网页信息的读取

帅哥,在线噢!
chnfo
  1楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:九尾狐 帖子:2242 积分:18472 威望:0 精华:0 注册:2011/11/26 20:21:00
[求助]网页信息的读取  发帖心情 Post By:2022/5/27 15:29:00 [显示全部帖子]

一个网页,是图文混排的,使用文本文件打开以后是这样的

<p>
3452345<img alt = "Pic001.png" src=".\Pic001.png" />
</p>
<p>
<a href="https://www.baidu.com/"> https://www.baidu.com/</a>
34563563<img  src=".\pic002.png" />
<a href="https://www.163.com/"> https://www.163.com/</a>
</p>

我对网页方面的了解就是个空白,用什么方法把网页的可视信息按顺序读取出来?

 回到顶部
帅哥,在线噢!
chnfo
  2楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:九尾狐 帖子:2242 积分:18472 威望:0 精华:0 注册:2011/11/26 20:21:00
  发帖心情 Post By:2022/5/27 16:01:00 [显示全部帖子]

这个会把同类型的信息读取出来,比如文本放在一起,图片放在一起,顺序也原文不一致

而且原码里面有换行符,提示有多个根元素?

[此贴子已经被作者于2022/5/27 16:04:46编辑过]

 回到顶部
帅哥,在线噢!
chnfo
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:九尾狐 帖子:2242 积分:18472 威望:0 精华:0 注册:2011/11/26 20:21:00
  发帖心情 Post By:2022/5/27 16:13:00 [显示全部帖子]

网页原文是这样的
 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:html.rar

在命令窗口解析出来是这样的
{
  "#text": [
    "\r\n3452345",
    "\r\n34563563"
  ],
  "img": [
    {
      "@alt": "Pic001.png",
      "@src": ".\\Pic001.png"
    },
    {
      "@src": ".\\pic002.png"
    }
  ],
  "a": [
    {
      "@href": "https://www.baidu.com/",
      "#text": " https://www.baidu.com/"
    },
    {
      "@href": "https://www.163.com/",
      "#text": " https://www.163.com/"
    }
  ]
}


 回到顶部
帅哥,在线噢!
chnfo
  4楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:九尾狐 帖子:2242 积分:18472 威望:0 精华:0 注册:2011/11/26 20:21:00
  发帖心情 Post By:2022/5/27 16:24:00 [显示全部帖子]

打开网页,是文本“3452345”,然后是图片Pic001.png,再然后是网址https://www.baidu.com,再然后是文本“34563563”,再然后是图片pic002.png,再然后是网址https://www.163.com

解析的结果,是两个文本放在一起,然后是两张图片,然后是两个网址
[此贴子已经被作者于2022/5/27 16:24:30编辑过]

 回到顶部
帅哥,在线噢!
chnfo
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:九尾狐 帖子:2242 积分:18472 威望:0 精华:0 注册:2011/11/26 20:21:00
  发帖心情 Post By:2022/5/27 16:34:00 [显示全部帖子]

第一段是文本1+图片1(中间有一个换行符)
第二段是百度网址+文本1+图片2+网易网址。
看图如下
图片点击可在新窗口打开查看此主题相关图片如下:解析结果顺序对不上.png
图片点击可在新窗口打开查看

希望得到的结果是 文本1、图片1、百度网址、文本2、图片2、网易网址
现在的结果是 文本1、图片1、百度网址、网易网址、文本2、图片2

如果用文本打开网页,把中间的回车符删除,也就是中间那个<p></p>删除,那解析出来的结果就更明显,先两个文本,再两个图片,再两个网址
[此贴子已经被作者于2022/5/27 16:56:02编辑过]

 回到顶部