发布完成一个网站后 在我的网站上面有一个输入文本框 在这个文本框中 用户可以输入一个淘宝的宝贝详细地址 ,然后用户点击提交 根据这个地址 程序去抓取淘宝该页面中的 标题 价格 图片等等 然后将这些抓取到的内容插入到数据库中 之后在我的网站上展示给用户查看
求具体的详细思路
如果是在淘宝的搜索页那比较好处理,因为HTML格式都是固定的不会变,可以用HttpWebRequest与HttpWebResponse两个对象来抓取资源,然后可以用正则匹配出相应的数据,但是正则很麻烦,园子里有人花了几年写了一个程序集提取Html信息很方便
http://www.cnblogs.com/Ivony/p/3447536.html
我试过用正则提取博客园文章的信息,确实很麻烦,你也可以参考下思路
之前有做过类似功能的东西,那时采取的方法是,根据填充的地址发送请求,对响应回的结果进行分析,并用正则表达式截取。
正解,用webrequest你百度一下,一堆代码
可以根据填写的地址进行解析,并填充页面用正则截取数据