最近看一个朋友,将一个电子书网站的书都爬走了,想到小网站好难混呀,那么爬虫真的那么难反,反不了吗?
现在培训机构还在不停的鼓吹大家学python,看电影不花钱,爬妹子图片,那么多学python的找不到工作,以后会不会以提供资源为生的网站大部分都要倒闭呢?
这个问题我觉得我们可以换个方向想一想:
未来的时代(包括现在)都将是一个数据为王的时代,而获取数据的方式不可能像前十年一样依靠人力去获取,而程序(也就是所谓的爬虫)是快速获取数据的来源,所以“爬虫”才会怎么火。
就像第一个回答所说的,未来必将出台一些政策来限制商业爬虫的行为(就像搜索引擎爬取网页得遵循robot协议),个人的爬虫的话,我觉得就的依靠网站管理者与制作爬虫的人斗智斗勇吧。(不过即使个人通过制作爬虫来获取利益的话,这个也不好查,成本太高了)
@张芸京: 因为我还是大学生,所以不知道培训机构是什么情况,为什么会有这么多人去学Python,不过的话,现在互联网企业关于程序方面的岗位应该还没有饱和吧?
看你的爬虫是做什么用的?如果是取对方数据不用于商业目的内部数据分析 是没有版权。但是 直接使用会涉及版权问题。
另外现在好多站点以及做反爬机制如前端动态css动态渲染重要数据正常爬下来看是特殊字符乱码。 但是也可以破解。只不过时爬虫解析成本会高些。
@张芸京: 我只是说爬虫的成本会高些。
未来爬虫会受到监管。
培训机构关心自己的腰包鼓不鼓,并不太关心学员是否都找得到工作。
现在很多网站其实并不盈利,真正盈利的是广告或其他产品。
Python最大的用处是 数据处理领域,numpy、scipy等才是Python的主战场,,请搜索博客园的招聘频道及其它招聘网站相关职位信息