网址:http://item.taobao.com/item.htm?spm=a230r.1.10.28.76e945&id=14777197140&_u=afgcd359aa0
我要抓取的是下面图片中两个矩形内的数据
我看了下网页的代码,好像这两个数据是通过脚本拿到的,不是那种简单的数据嵌入。
求高手帮忙,我用的是python
查出售件数:http://ajax.tbcdn.cn/json/ifq.htm?id=14777197140&sid=1&q=1
对应返回结果中的quanity,id是产品ID其它两个参数不用动
查浏览数:
对应返回结果中的ICVT_7_14777197140
这个没上面那个方便,带了签名不能改参数,这个地址必须得从产品页面去取。
第一个ajax请求格式灰常好。请问是怎么找出来的。
第二个太不规则了,事实上宝贝的信息可以用
http://detail.tmall.com/item.htm?id=14777197140
这个统一格式的网址获取。在这种情况下,有没有更好的方法获得浏览数。非常感谢
@2010Freeze:
谷歌浏览器F12或HttpWatch。
貌似是不行,它这个取浏览数的,同时还做了浏览数+1的操作,所以必须要用它带签名的链接去取,而这个链接又是通过访问产品页面生成的,或许也可能有其它方式页面东西太多了不好找。
如果你是做淘宝应用,可以直接调用它的API啊。
@向往-SONG: 我明白了,两个数据的变化触发条件不一样,导致了获取的复杂度不一样。
你猜对了,我还真是做淘宝应用的。但是淘宝这方面没有全开发,宝贝销量只能拿到累计的。浏览就拿不到,更不用说一定时间内的数据了。我不知道是什么原因,可能是性能的考虑。总之还是很感谢你,今天又学了一点新的,我目前主要是做算法和挖掘工作。但打算接触下前端的东西,公司里的产品都是用B/S模式实现的,以前学过点php和html.但是不懂ajax和queue什么的
现在主要在用python和CPP。想接触下前端用到的一些主流技术,粗通就行了。不知您有什么推荐。
@2010Freeze:
推荐什么去请教那些大牛吧,我也是做b/s后端的,前端也是在折腾项目的过程中学了点。
html/css/js,jquery,前端调试工具的使用,对非专业前端会点这些就差不多了。
首先得到整页的html内容,再通过正则取单个值
最好用,最简单的免费网页数据采集器爬一爬 http://www.pa1pa.com