首页 新闻 会员 周边 捐助

scrapy+mysql 爬取 boss直聘网信息

0
悬赏园豆:100 [待解决问题]

有大佬成功利用scrapy+mysql 成功过爬取过boss直聘网的信息吗?请帮忙提供一些示例或者说明boss直聘网反爬虫的策略是什么呢?为什么我使用scrapy框架爬取时会被定向到空白网页?注:基于scrapy框架。

石斛的主页 石斛 | 初学一级 | 园豆:102
提问于:2020-01-09 13:24
< >
分享
所有回答(1)
0

你这是犯法的吧

猝不及防 | 园豆:2882 (老鸟四级) | 2020-01-09 14:27

1、我没有违反版权法、2、我抓取的数据少,控制抓取速度没有对boss直聘网的服务器造成实际的损害、没有侵害动产;3、robots.text并不是强制性约束。违法也是需要依据的!

支持(0) 反对(1) 石斛 | 园豆:102 (初学一级) | 2020-01-09 17:55

@石斛: 提醒你小心。有前车之鉴

支持(0) 反对(0) 猝不及防 | 园豆:2882 (老鸟四级) | 2020-01-09 18:21

@石斛: 前一段时间我室友公司的几个搞爬虫的程序员被抓了

支持(0) 反对(0) 莫等、闲 | 园豆:206 (菜鸟二级) | 2020-01-11 17:58

@莫等、闲: ~~~我只是进行技术探讨,发现scrapy一直爬取失败,而且不是很了解scrapy框架的各个模块,但是用其他模块组合却可以,所以有技术疑问,而且最近想收集招聘信息。谢谢提醒!

支持(0) 反对(0) 石斛 | 园豆:102 (初学一级) | 2020-01-11 23:25

不知道你对scrapy框架的了解有多少,觉得这个问题出在哪里?一般的cookie、UA、time都有试过,都没能解决~

支持(0) 反对(0) 石斛 | 园豆:102 (初学一级) | 2020-01-11 23:30

技术本身没有错,只是使用方法可能有问题。我不理解大家为什么先入为主,都强调犯法的问题o(╥﹏╥)o。可能是因为我的提问有点问题,下次我得注意了。o(╥﹏╥)o

支持(0) 反对(0) 石斛 | 园豆:102 (初学一级) | 2020-01-11 23:37
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册