关于采集网站商品信息

悬赏园豆：50 [已关闭问题] 关闭于 2012-02-17 09:26

我想采集http://www.tootoomart.com/网站的所有商品信息请问怎么采集啊，那商品列表还有分页，HTML用正则都不好匹配啊。跪求帮忙，老大要我做的。那会死英语网站用浏览器翻译过来再弄哦

5555

miloss | 菜鸟二级 | 园豆：254
提问于：2012-02-14 17:42

< >

所有回答(4)

翻译过来再弄就要用到google翻译了，如果不翻译的话还比较好弄，先找到商品列表，然后通过正则表达式去匹配到需要的信息。翻译过来就是去抓翻译后的信息了。

az235 | 园豆：8483 (大侠五级) | 2012-02-14 18:40

你先要匹配出所有的页面url，然后再请求每个页面，再匹配出每个页面内的内容。

LCM | 园豆：6876 (大侠五级) | 2012-02-14 18:41

怎么去匹配所有的URL勒，能说具体点吗？

支持(0) 反对(0) miloss | 园豆：254 (菜鸟二级) | 2012-02-15 09:41

@miloss: 怎么匹配出url，我在你另一个问题中说了，就是匹配出a标签的内容的时候把url也匹配出来，有了url就容易了，分页的话基本上就是在url上面加上页码，比如第五页就是 http://...../wholesale-sony+ericsson/page_5/ ，第六页就是http://...../wholesale-sony+ericsson/page_6/，直到你采集时返回错误说没有这个页了，你再换另一种类的再接着彩就行了。

支持(0) 反对(0) LCM | 园豆：6876 (大侠五级) | 2012-02-15 09:46

其实你的问题是翻译，翻译应该是在采集到本地之后进行的工作，google翻译有很多不准确的地方。

喵喵喵猫 | 园豆：1742 (小虾三级) | 2012-02-14 19:06

0.0

miloss | 园豆：254 (菜鸟二级) | 2012-02-17 09:24

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。

关于采集网站商品信息

欢迎，请先登录或者注册。