首页 新闻 搜索 专区 学院

关于采集网站商品信息

0
悬赏园豆:50 [已关闭问题] 关闭于 2012-02-17 09:26

我想采集http://www.tootoomart.com/网站的所有商品信息 请问怎么采集啊,那商品列表还有分页,HTML用正则都不好匹配啊。  跪求帮忙,老大要我做的。那会死英语网站 用浏览器翻译过来再弄哦

miloss的主页 miloss | 菜鸟二级 | 园豆:254
提问于:2012-02-14 17:42
< >
分享
所有回答(4)
0

翻译过来再弄就要用到google翻译了,如果不翻译的话还比较好弄,先找到商品列表,然后通过正则表达式去匹配到需要的信息。翻译过来就是去抓翻译后的信息了。

az235 | 园豆:8283 (大侠五级) | 2012-02-14 18:40
0

你先要匹配出所有的页面url,然后再请求每个页面,再匹配出每个页面内的内容。

LCM | 园豆:6876 (大侠五级) | 2012-02-14 18:41

怎么去匹配所有的URL勒,能说具体点吗?

支持(0) 反对(0) miloss | 园豆:254 (菜鸟二级) | 2012-02-15 09:41

@miloss: 怎么匹配出url,我在你另一个问题中说了,就是匹配出a标签的内容的时候把url也匹配出来,有了url就容易了,分页的话基本上就是在url上面加上页码,比如第五页就是    http://...../wholesale-sony+ericsson/page_5/   ,第六页就是http://...../wholesale-sony+ericsson/page_6/,直到你采集时返回错误说没有这个页了,你再换另一种类的再接着彩就行了。

支持(0) 反对(0) LCM | 园豆:6876 (大侠五级) | 2012-02-15 09:46
0

其实你的问题是翻译,翻译应该是在采集到本地之后进行的工作,google翻译有很多不准确的地方。

喵喵喵猫 | 园豆:1742 (小虾三级) | 2012-02-14 19:06
0

0.0

miloss | 园豆:254 (菜鸟二级) | 2012-02-17 09:24
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册