本人学习python几个月, 目前想要学习网
络爬虫,应该从哪方面入手,要了解哪些知识?
先了解下相关法律,看下爬取范围、定责
学习:
1.前端知识 html、js 便于定位爬取内容、跨认证、资源跳转 等等
2.相关爬虫脚本的语法、相关库的技术储备(语言:python;页面解析:lxml、bs4、re;存储:openpyxl、sqllite、pymysql;抓包分析:fiddler、tcpdump、wireshark)等等
3.Github找热门的代码&教程,跑跑、改改 基本就入门了
python是笔者非常推荐学习的,绝对是轻量级的,大数据时代必备的工具语言。
可以先从数据处理入手,然后学习一些web框架,比如流行的fastapi等框架。
掌握web的一些特性。
上手之后在看看github上的一些爬虫案例。
谢谢指导!