1.你所说的不同数据是不是因为登录的帐号不一样所以数据不同,但是url是一样的?
如果是这种情况,就写一个程序,依次输入帐号密码即可.
2.登录的情况,可以用浏览器模拟登录或者分析请求模拟登录,验证码可以手动输入或者去打码平台
100个话不多,可根据情况来看,主要看你怎么获取回来验证码,然后填进去
你要是登录帐号获取到的cookie可以一直用的话,是可以一直获取数据的
3.你所说的窗体是界面吗?爬虫一般不要界面.如果你要实时显示,最好分两个模块,一个采集数据,一个展示数据
4.ip的问题主要看网站,网站不封ip的话敞开用
你不知道怎么下手的话,先分析一下有没有可行性,像楼上说的一个帐号一个url就很难搞.比较麻烦
如果觉得可以搞,先拿一个帐号试一下,你登录一个帐号,看能不能用程序登录成功;你用登录的cookie试一下,看能不能获取到数据,先把这些基本的问题解决了,你就知道怎么去处理100个帐号了.
好的,谢谢你,我准备拿Python获取到数据存储到MySQL中,用C#读取数据库中的数据,显示出来。
刚刚自学Python,能不能推荐点教程什么的,想cookie,request这类的知识,不知道从何下手,还有如果我登录到一个网站了,我在请求这个网站下的别的页面还用在重新登录么,这个是不是cookie方面的知识。
小白,有些语无伦次,请见谅~
@海胆:
这个cookie这些是http相关的知识,可以看一下这个:http://www.runoob.com/http/http-tutorial.html
这个菜鸟教程上的python教程也可以,都比较基础.
看些基础再看一点爬虫的例子(网上自己找点爬知乎豆瓣什么的爬虫文章),就差不多可以自己找些网站爬取练手了.
且不说后面的 我首先想问的是 你怎么绕过验证码
把账号全部登陆,不退出,然后可以一直获取数据,这样不知能实现么
不好做,首先爬虫都是按一定规律爬,你现在技术上的问题先不考虑,但是100个帐号要去不同页面拿数据,那么你就得有个这个对应关系,光列kv也够你受的。我觉得你该先将要爬的东西分类,然后可以同时开始多个爬虫就好
每个账号要取数据的页面是否有一定的规则啊,如果有就比较好做的了,验证码可以通过接入打码平台来处理
每个账号都是取同样的数据,都在相同的页面