比如,给定一个网站的首页,然后爬取图片这个没问题,但是怎么爬取网站的所有图片呢?就是网站的目录结构
通过先抓取首页上的有效链接,再去爬这个链接对应的页面上的图片,有链接的继续抓取链接,如此重复,再根据需要定个爬取层次的深度,达到这个层次,就停止抓取链接
建立 链接树 然后遍历 所有的树节点
一般来说 不会遍历所有的 一般都是某几个特定的页面
例如漫画网站的 明细页面