首页 新闻 会员 周边 捐助

C# 提取有效页面url

0
悬赏园豆:20 [已关闭问题] 关闭于 2017-04-01 10:34

做一个小爬虫,给定一个基地址,然后爬取页面的a标签。

现在遇到一个问题就是a标签会出现 相对地址、js代码,请问怎么屏蔽掉js代码的a标签,相对链接的加上域名

梦里的畅泳的主页 梦里的畅泳 | 初学一级 | 园豆:159
提问于:2017-02-28 16:24
< >
分享
所有回答(2)
0

从dom解析。

花飘水流兮 | 园豆:13615 (专家六级) | 2017-02-28 21:47

HtmlAgilityPack CsQuery AngleSharp这些都能解析html,我的问题不是如何解析拿到A标签,而是拿到A标签后href属性会有js代码或者相对路径

支持(0) 反对(0) 梦里的畅泳 | 园豆:159 (初学一级) | 2017-03-01 13:57

@梦里的畅泳: dom这个都不能搞定浏览器怎么跳转!

支持(0) 反对(0) 花飘水流兮 | 园豆:13615 (专家六级) | 2017-03-01 14:21
0

有专门将html解析成对象的,你搜一下手把手教你写爬虫就知道了



恝置 | 园豆:213 (菜鸟二级) | 2017-02-28 22:34

 解析html不是问题,问题是a标签会出现相对地址和js代码

支持(0) 反对(0) 梦里的畅泳 | 园豆:159 (初学一级) | 2017-03-01 13:55
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册