我说下我的思路,淘宝api基础数据包完全可以拉取到你的这些所需要的数据,登录采集,我不知道你要采集什么样的数据。市面上好多工具箱都可以实现你所需要的功能,你可以百度下,
1是像买家那样正常登录淘宝网那样的模拟
2采集复数的淘宝店铺的商品信息
@Cherbim: 一般模拟登录采集,这个你可以用WebBrowser。主要赋值提交,如果有验证码,你还需要对验证码进行破解,采集主要用到的技术是html代码解析,网上有好多开源的,我经常用的是HtmalAgilityPack.
你说的步骤都对啊,没有看出来什么不妥....
1、登录
2、采集
3、去重
4、保存到数据库或本地。
就是问你具体怎么做啊大叔.........................
@Cherbim: 看淘宝API,打开VS,Coding...
直说吧,你到底哪儿不懂,你要是不懂编程,你就按楼下的做法,随便找个工具就行了,
淘宝就有一个,免费的。
你要是懂一点,就是想学习,那就动手开始,碰到问题再问啊。
还是说你更愿意,直接让人把整个做好的解决方案让你下载?
@爱编程的大叔: 不知道怎么和你说,如果有人弄好了你何必再造轮子?
@Cherbim: 你这么说我就懂了。
你直接开个价,10万还是20万,总是有人缺钱的。
这种东西我上次好像在哪里见到过,应该有现成的,查一下看有没有适合你的呗!
思路就是3步,具体业务逻辑根据你自己的具体需求来加工
step1 实现登录,用sendkeys或sendmessage实现
step2 获取指定页面数据,httpwebrequet
step3 解析获取到的数据
如果要采集淘宝商品信息,可以直接使用神箭手云爬虫现成的淘宝商品信息及评价采集爬虫(按商品搜索关键字)
爬虫链接:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=119
from urllib.request import urlopen
from urllib.parse import urlparse
from bs4 import BeautifulSoup
import re
import datetime
import random
http = "https://item.taobao.com/item.htm?id=570239504829&ali_refid=a3_430673_1006:1110178788:N:HVrt7v9tH8hA03Ld9JHZmg%3D%3D:246d671c668dfc15fbecb4afc5c0b2e5&ali_trackid=1_246d671c668dfc15fbecb4afc5c0b2e5&spm=a231k.13731936.21333857.4"
html = urlopen(http)
bs = BeautifulSoup(html,'html.parser')
def Initialize_web_page(url):
html = urlopen(url)
bs = BeautifulSoup(html,'html.parser')
def Clothing_store_website(url):
Initialize_web_page(url)
product_name = bs.find("title")
print("名称")
print(product_name.get_text())
product_money = bs.find("em",{'class':"tb-rmb-num"})
print("价格")
print(product_money.get_text())
print("数量")
product_number = bs.find("span",{'class':"tb-count"})
print(product_number.get_text())
print("掌柜")
shopkeeper = bs.find("span",{'data-encode':"true"})
print(shopkeeper.attrs['data-nick'])
print("其他信息")
for thing in bs.find("ul",{'class':"attributes-list"}).find_all("li"):
print(thing.get_text())
Clothing_store_website(http)
这个代码可以输出商品数据