www太易用太通用太Open(裸奔)。
目前来说基本可以认为无法反爬,只有阿里的滑动相对麻烦 —— 但我相信只是这家企业的背景问题,只要有专业的人去做这件事一样不是问题。
至于说什么机器学习,反爬也可以这么做来破,而且反爬中早就有用这个东西了。
只要允许通用的 浏览器 存在,且代码 (反编译)很容易读,那么就没有难度。尤其是有第一项作为选项,第二项甚至不需要做就能读取。
比如有的企业用的数据加密,但机器是可以上网的,笔者花了10多分钟包括写码帮助友人把资源copy走,在下看来那种企业数据安全毛用没得;至于https,fiddler已经做了很好的典范,就不用多言了。这些的安全系数,实际远远小于笔者做游戏机的安全系数,游戏机的要求是不能破,软件考走无用,这个业界的通用技术手段是加密狗,关于加密狗的被破早就不是新闻而且已经是大众的一种工具了——这个算是比较可以的了。
知晓原理,如果还有不错的经验,再如果还有不错的数学知识,应该就是高手了。
在下略知一些原理,所做的一些,基本不靠深入反解过程,因为一定要呈现给客户端,那么做快速简单的办法都在这里。
实际上开发的容易,工具的简化,相反(破解)也是一样的,www本就是为Open(开放、共享)而生,一个普通www开发人员都知道f12,试问更厉害一点点的人难道不知道吗?而如果一个能写windows程序的,他就未必知道怎么玩了。门槛很重要——现在随便一个会那么丢丢python的能爬点数据的就号称技术高手,你认为可能吗。
因为如何把用户标识成一个“爬虫”是不容易去判断的。因为爬虫请求可以进行多种伪装,比如IP代理,请求头伪造。
目前来说,通过机器学习来识别爬虫是一种未来可以考虑办法。
难的是在防治机器爬虫和保证用户体验之间权衡。
爬虫可以做到和真人操作一样效果,对于这种行为反爬是不可能实现。