做一个小爬虫,给定一个基地址,然后爬取页面的a标签。
现在遇到一个问题就是a标签会出现 相对地址、js代码,请问怎么屏蔽掉js代码的a标签,相对链接的加上域名
从dom解析。
HtmlAgilityPack CsQuery AngleSharp这些都能解析html,我的问题不是如何解析拿到A标签,而是拿到A标签后href属性会有js代码或者相对路径
@梦里的畅泳: dom这个都不能搞定浏览器怎么跳转!
有专门将html解析成对象的,你搜一下手把手教你写爬虫就知道了
解析html不是问题,问题是a标签会出现相对地址和js代码