首页 新闻 会员 周边

非移动端模拟淘宝登录和店铺数据采集

0
悬赏园豆:50 [已解决问题] 解决于 2015-03-29 22:18

请有做过的人讲讲。

具体需求就是:

------------------------------

 模拟淘宝帐号登录
 采集淘宝店的所有宝贝, 去重复
------------------------------
然后就是用C#做。
Cherbim的主页 Cherbim | 菜鸟二级 | 园豆:323
提问于:2014-10-14 11:00
< >
分享
最佳答案
1

我说下我的思路,淘宝api基础数据包完全可以拉取到你的这些所需要的数据,登录采集,我不知道你要采集什么样的数据。市面上好多工具箱都可以实现你所需要的功能,你可以百度下,

收获园豆:50
amityat | 菜鸟二级 |园豆:476 | 2014-10-14 11:11

1是像买家那样正常登录淘宝网那样的模拟

2采集复数的淘宝店铺的商品信息

Cherbim | 园豆:323 (菜鸟二级) | 2014-10-14 12:00

@Cherbim: 一般模拟登录采集,这个你可以用WebBrowser。主要赋值提交,如果有验证码,你还需要对验证码进行破解,采集主要用到的技术是html代码解析,网上有好多开源的,我经常用的是HtmalAgilityPack.

amityat | 园豆:476 (菜鸟二级) | 2014-10-14 14:59
其他回答(5)
-1

你说的步骤都对啊,没有看出来什么不妥....

1、登录

2、采集

3、去重

4、保存到数据库或本地。

爱编程的大叔 | 园豆:30839 (高人七级) | 2014-10-14 11:07

就是问你具体怎么做啊大叔.........................

支持(0) 反对(0) Cherbim | 园豆:323 (菜鸟二级) | 2014-10-14 11:10

@Cherbim: 看淘宝API,打开VS,Coding...

直说吧,你到底哪儿不懂,你要是不懂编程,你就按楼下的做法,随便找个工具就行了,

淘宝就有一个,免费的。

你要是懂一点,就是想学习,那就动手开始,碰到问题再问啊。

还是说你更愿意,直接让人把整个做好的解决方案让你下载?

支持(0) 反对(0) 爱编程的大叔 | 园豆:30839 (高人七级) | 2014-10-14 11:18

@爱编程的大叔: 不知道怎么和你说,如果有人弄好了你何必再造轮子?

支持(0) 反对(0) Cherbim | 园豆:323 (菜鸟二级) | 2014-10-14 12:01

@Cherbim: 你这么说我就懂了。

你直接开个价,10万还是20万,总是有人缺钱的。

支持(0) 反对(0) 爱编程的大叔 | 园豆:30839 (高人七级) | 2014-10-14 12:14
0

这种东西我上次好像在哪里见到过,应该有现成的,查一下看有没有适合你的呗!

晓菜鸟 | 园豆:2594 (老鸟四级) | 2014-10-14 14:15
0

思路就是3步,具体业务逻辑根据你自己的具体需求来加工

step1 实现登录,用sendkeys或sendmessage实现

step2 获取指定页面数据,httpwebrequet

step3 解析获取到的数据

Set sail | 园豆:540 (小虾三级) | 2014-10-15 14:30
0

如果要采集淘宝商品信息,可以直接使用神箭手云爬虫现成的淘宝商品信息及评价采集爬虫(按商品搜索关键字)

爬虫链接:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=119

sosozzzx | 园豆:302 (菜鸟二级) | 2016-08-15 14:45
0

from urllib.request import urlopen
from urllib.parse import urlparse
from bs4 import BeautifulSoup
import re
import datetime
import random

http = "https://item.taobao.com/item.htm?id=570239504829&ali_refid=a3_430673_1006:1110178788:N:HVrt7v9tH8hA03Ld9JHZmg%3D%3D:246d671c668dfc15fbecb4afc5c0b2e5&ali_trackid=1_246d671c668dfc15fbecb4afc5c0b2e5&spm=a231k.13731936.21333857.4"
html = urlopen(http)
bs = BeautifulSoup(html,'html.parser')

def Initialize_web_page(url):
html = urlopen(url)
bs = BeautifulSoup(html,'html.parser')

def Clothing_store_website(url):
Initialize_web_page(url)
product_name = bs.find("title")
print("名称")
print(product_name.get_text())
product_money = bs.find("em",{'class':"tb-rmb-num"})
print("价格")
print(product_money.get_text())
print("数量")
product_number = bs.find("span",{'class':"tb-count"})
print(product_number.get_text())
print("掌柜")
shopkeeper = bs.find("span",{'data-encode':"true"})
print(shopkeeper.attrs['data-nick'])
print("其他信息")
for thing in bs.find("ul",{'class':"attributes-list"}).find_all("li"):
print(thing.get_text())

Clothing_store_website(http)

这个代码可以输出商品数据

颤抖的python | 园豆:202 (菜鸟二级) | 2020-03-02 18:39
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册