首页 新闻 搜索 专区 学院

关于采集网站内容的问题

0
悬赏园豆:20 [已解决问题] 解决于 2015-04-16 10:07

需求是这样的:我们现在想按照分类从京东或者天猫这样的网站上把产品的详细信息(包括图片)采集下来,并存到自己的MySQL数据库中,毫无思路啊!大神们,指点一下啊,要是有类似的程序源码就更好了!谢谢了!

C#
lin714115的主页 lin714115 | 初学一级 | 园豆:35
提问于:2014-12-08 09:41
< >
分享
最佳答案
1

我写过一个winform的。 已经运行了两年了。 思路是这样子的:

1.  抓取所要产品网页的链接地址, 放入采集队列。  

2.  遍历步骤1中的链接地址,获取产品详细页面的html; 正则或html解析详细页面,提取出产品各种信息。 

3.  插入数据库。 

至于怎么获取、解析html文件, 可以上www.gaomn.com用谷歌搜搜。 关键是webRequest、正则表达式、多线程这些。 html解析可以用开源的Html Agility Pack。 

别下别人的源码, 要自己动手做。 这个东西很好玩的。 

注意:不要采集太快, 否则有封IP的风险!

收获园豆:20
问天何必 | 老鸟四级 |园豆:3301 | 2014-12-08 10:01
其他回答(1)
0

我写过很多这样的winform快写吐了。

这个主要分两部分。可以分两个程序独立运作。

 

首先用webbrowser去打开这些页面然后把这些页面去掉没用的部分如js及无用信息等,保存下来,对应的图片也保存下来。webclient可以用来保存图片。

第二步就是用webbrowser去读下载的页面,里面可以用htmlelement读获取到想要的信息,处理后更新数据库。

有啥不懂再问。

Slark.NET | 园豆:692 (小虾三级) | 2014-12-08 22:19
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册