首页 新闻 搜索 专区 学院

请教前端高手,网页数据抓取

0
悬赏园豆:30 [已解决问题] 解决于 2012-10-12 12:24

网址:http://item.taobao.com/item.htm?spm=a230r.1.10.28.76e945&id=14777197140&_u=afgcd359aa0

我要抓取的是下面图片中两个矩形内的数据

我看了下网页的代码,好像这两个数据是通过脚本拿到的,不是那种简单的数据嵌入。

求高手帮忙,我用的是python

NashZhou的主页 NashZhou | 初学一级 | 园豆:40
提问于:2012-10-10 19:55
< >
分享
最佳答案
0

查出售件数:http://ajax.tbcdn.cn/json/ifq.htm?id=14777197140&sid=1&q=1

对应返回结果中的quanity,id是产品ID其它两个参数不用动

查浏览数:

http://count.tbcdn.cn/counter3?inc=ICVT_7_14777197140&sign=7125478d9062bce2cf75f98dcb98832ccb0f2&keys=DFX_200_1_14777197140,ICVT_7_14777197140,ICCP_1_14777197140,ICE_3_feedcount-14777197140,ZAN_27_2_14777197140,SCCP_2_34086852&callback=DT.mods.SKU.CounterCenter.saveCounts

对应返回结果中的ICVT_7_14777197140

这个没上面那个方便,带了签名不能改参数,这个地址必须得从产品页面去取。

收获园豆:30
向往-SONG | 老鸟四级 |园豆:4853 | 2012-10-10 21:37

第一个ajax请求格式灰常好。请问是怎么找出来的。

第二个太不规则了,事实上宝贝的信息可以用

http://detail.tmall.com/item.htm?id=14777197140

这个统一格式的网址获取。在这种情况下,有没有更好的方法获得浏览数。非常感谢

NashZhou | 园豆:40 (初学一级) | 2012-10-11 19:50

@2010Freeze: 

谷歌浏览器F12或HttpWatch。

貌似是不行,它这个取浏览数的,同时还做了浏览数+1的操作,所以必须要用它带签名的链接去取,而这个链接又是通过访问产品页面生成的,或许也可能有其它方式页面东西太多了不好找。

如果你是做淘宝应用,可以直接调用它的API啊。

向往-SONG | 园豆:4853 (老鸟四级) | 2012-10-11 20:06

@向往-SONG: 我明白了,两个数据的变化触发条件不一样,导致了获取的复杂度不一样。

你猜对了,我还真是做淘宝应用的。但是淘宝这方面没有全开发,宝贝销量只能拿到累计的。浏览就拿不到,更不用说一定时间内的数据了。我不知道是什么原因,可能是性能的考虑。总之还是很感谢你,今天又学了一点新的,我目前主要是做算法和挖掘工作。但打算接触下前端的东西,公司里的产品都是用B/S模式实现的,以前学过点php和html.但是不懂ajax和queue什么的

现在主要在用python和CPP。想接触下前端用到的一些主流技术,粗通就行了。不知您有什么推荐。

NashZhou | 园豆:40 (初学一级) | 2012-10-12 10:30

@2010Freeze: 

推荐什么去请教那些大牛吧,我也是做b/s后端的,前端也是在折腾项目的过程中学了点。

html/css/js,jquery,前端调试工具的使用,对非专业前端会点这些就差不多了。

向往-SONG | 园豆:4853 (老鸟四级) | 2012-10-12 10:40
其他回答(2)
0

首先得到整页的html内容,再通过正则取单个值

jason2013 | 园豆:1998 (小虾三级) | 2012-10-10 21:55
0

最好用,最简单的免费网页数据采集器爬一爬 http://www.pa1pa.com

静守一生 | 园豆:202 (菜鸟二级) | 2017-02-21 11:24
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册