我想采集http://www.tootoomart.com/网站的所有商品信息 请问怎么采集啊,那商品列表还有分页,HTML用正则都不好匹配啊。 跪求帮忙,老大要我做的。那会死英语网站 用浏览器翻译过来再弄哦
翻译过来再弄就要用到google翻译了,如果不翻译的话还比较好弄,先找到商品列表,然后通过正则表达式去匹配到需要的信息。翻译过来就是去抓翻译后的信息了。
你先要匹配出所有的页面url,然后再请求每个页面,再匹配出每个页面内的内容。
怎么去匹配所有的URL勒,能说具体点吗?
@miloss: 怎么匹配出url,我在你另一个问题中说了,就是匹配出a标签的内容的时候把url也匹配出来,有了url就容易了,分页的话基本上就是在url上面加上页码,比如第五页就是 http://...../wholesale-sony+ericsson/page_5/ ,第六页就是http://...../wholesale-sony+ericsson/page_6/,直到你采集时返回错误说没有这个页了,你再换另一种类的再接着彩就行了。
其实你的问题是翻译,翻译应该是在采集到本地之后进行的工作,google翻译有很多不准确的地方。
0.0