HtmlAgilityPack只是对页面的数据进行提取。
可以想下百度如何爬到那么网页的??
假设baidu.com这个页面里面有100个连接,爬虫首先会爬这一百个链接,然后在再从这100个链接里面再去爬链接。这样形成一个递归操作。
一楼说的很有道理:说 HtmlAgilityPack 只需要30秒钟,而告诉你如何一步步爬下去,需求3天,这还需要你有基础。
简单的爬虫只需要三步:目标站→获取目标战中符合负责的url→利用HtmlAgilityPack 或者正则提取自己需要的数据
因为说 HtmlAgilityPack 只需要30秒钟,而告诉你如何一步步爬下去,需求3天,这还需要你有基础。
现在一头雾水,不知道怎么处理,HtmlAgilityPack这个只知道对请求的页面文件进行处理,提取里面的URL,至于一步一步的爬就完全没有思路了。麻烦大神给点建议。
@有机物: 循环,递归,错误处理啊,就是这些了,没啥大不了的,但是就是需要很多时间学习、练习。碰到一个问题,解决一个问题,你这样是想有人直接给你个软件吗?
碰到的问题才问,你这没碰到问题呢。比如分页啥问题,你得具体问,不然谁知道你啥问题呢?!
不要想着一天就写出一个世界上最好的软件,能跑起来就不错了。
每当你爬到一个网页,里面不是有一堆的href吗?这就是你接下去要继续搜的对象啊。
深度遍历即可,设一个遍历最高层数。
不过这一种爬虫技术太土,如果是恶意的,很容易直接被人KO。
那类似分页一类的怎么处理呢?还有,能否有其他的更好的方式呀,因为无法获取到分页的数量,所以,使用多线程处理也有点困难。
分页只是地址里面参数不同而已,抓取不同地址对应的内容即可。
爬虫简单点就是 获取对应请求地址的html数据,解析html,获取你想要的那部分就可以了 爬虫就是抓取html数据而已
来来来,给你介绍一款 RPA 工具 , UIPath, 针对分页数据,分分钟解决,不写代码,正在使用,怒赞