首页 新闻 搜索 专区 学院

求C# 关于数据采集的思路

0
悬赏园豆:5 [已解决问题] 解决于 2014-07-21 10:58

发布完成一个网站后  在我的网站上面有一个输入文本框 在这个文本框中  用户可以输入一个淘宝的宝贝详细地址 ,然后用户点击提交  根据这个地址  程序去抓取淘宝该页面中的 标题 价格 图片等等 然后将这些抓取到的内容插入到数据库中 之后在我的网站上展示给用户查看

求具体的详细思路

飞翔的鱼的主页 飞翔的鱼 | 初学一级 | 园豆:3
提问于:2013-12-24 10:22
< >
分享
最佳答案
0

如果是在淘宝的搜索页那比较好处理,因为HTML格式都是固定的不会变,可以用HttpWebRequest与HttpWebResponse两个对象来抓取资源,然后可以用正则匹配出相应的数据,但是正则很麻烦,园子里有人花了几年写了一个程序集提取Html信息很方便

http://www.cnblogs.com/Ivony/p/3447536.html

我试过用正则提取博客园文章的信息,确实很麻烦,你也可以参考下思路 

采集博客园文章,用瀑布流+无限滚动展示

收获园豆:5
Zery | 大侠五级 |园豆:6069 | 2013-12-24 10:51
其他回答(3)
0

之前有做过类似功能的东西,那时采取的方法是,根据填充的地址发送请求,对响应回的结果进行分析,并用正则表达式截取。

Light Xun | 园豆:198 (初学一级) | 2013-12-24 10:31
0

正解,用webrequest你百度一下,一堆代码

笑云 | 园豆:265 (菜鸟二级) | 2013-12-24 10:35
0

可以根据填写的地址进行解析,并填充页面用正则截取数据

妍珊 | 园豆:1169 (小虾三级) | 2013-12-24 11:08
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册