怎么实现网页信息采集

悬赏园豆：10 [已关闭问题] 关闭于 2011-03-02 22:43

在一些新闻网页中，我想采集网页中正文部分和正文标题。

我已经用dom方法和WebBrowser控件试过都不怎么行。。。。。

求解。。。。。

.NET技术 C#

vavin_love | 初学一级 | 园豆：200
提问于：2011-02-26 19:57

< >

所有回答(4)

一般都是请求网址，获取网页源代码，然后用正则表达式分析，给你个得到网页源码的示例程序：

/// <summary>
        /// 获得网址原代码
        /// </summary>
        /// <param name="Url">网址</param>
        /// <returns>string</returns>
        public static string GetHtml(string Url)
        {
            string strResult = "";
            try
            {
                Uri uri = new Uri(Url);
                HttpWebRequest request = (HttpWebRequest)WebRequest.Create(uri);
                request.Method = "GET";
                request.AllowAutoRedirect = true;
                request.UserAgent = "Googlebot/2.1 ( http://www.google.com/bot.html)";
                request.Referer = string.Concat("http://", uri.Host);
                HttpWebResponse response = (HttpWebResponse)request.GetResponse();
                Stream streamReceive = response.GetResponseStream();
                Encoding encoding = Encoding.UTF8;
                StreamReader streamReader = new StreamReader(streamReceive, encoding);
                strResult = streamReader.ReadToEnd();
            }
            catch { }
            return strResult;
        }

artwl | 园豆：16736 (专家六级) | 2011-02-26 21:34

这采集的是网页中的全部的内容，我需要的只是网页中的正文内容。例如：网页中有一些广告，菜单栏，

首页新闻体育娱乐财经股票科技博客微博视频播客汽车房产游戏女性读书教育星座天气短信邮箱导航通行证退出 874997..新闻中心 > 国内新闻 > 正文
广东人大代表质疑卖地预算与楼市调控存矛盾http://www.sina.com.cn 2011年02月26日05:31 中国新闻网
　　中新社广州2月25日电广州市人大代表、中山大学法学教授黄建武在该市“两会”期间接受记者采访时提出，广州市2011年财政预算中，土地出让收入计划较上年大幅增收，这与目前的楼市调控政策存在矛盾。

　　记者25日就此询问广州市财政局长张杰明，他未予回应。

　　根据广州市财政局向广州市人大十三届六次会议提交的该市“2010年预算执行报告和2011年预算草案”显示，2010年广州国有土地使用权出让金收入455.6亿元人民币；2011年国有土地出让金收入计划为646.5亿元，比上年增收190.8亿元。

　　“虽然我是法学教授，对经济学是‘门外汉’，但从字面上理解觉得存在矛盾之处。”黄建武说，房价要降下来，土地出让金理应有所下降；现对抑制房价，中央态度坚决、民间要求强烈的情况下，土地基金收入还能否实现大幅增收本身存在疑问。而现今中国的地方政府“土地经济”特征明显，一但房价‘打压’成功、出现下跌，土地出让金如果收不上来，会影响城市运作，“别忘了，收入决定支出，缺口这么大如何平衡？这是非常现实的问题，决策部门有必要重新思考、审慎面对”。

　　黄建武也同意，也许制定该份预算时，“新国八条”还没有出台，时间差导致“预算差距”，但现实情况出现变化就有必要重新审视当初的预算还是否科学。(完)

网页新闻图片博客视频

相关热词搜索

留言板电话：010-82612286 保存全文浏览大中小打印关闭返回首页网友热评已有1067人参与查看所有1067条评论 >>

874997292:退出
已有0条回复
同时发往微博注册用户名密码

我要评论已有1067人参与 874997292:退出
用户名快速注册新用户
密　码忘记密码？

同时发往微博

�糖尿病--活糖是关键
�高血压--中医有奇方
�补肾强肾--老外叫绝

�奇：打呼噜当晚止鼾
�皮肤顽癣神奇抗复发
�失眠抑郁--权威报道

�补肾、强肾秘密武器
�高血压--治愈绝招！
�男人补肾强肾的秘籍
�男女泌尿病毒-新突破

�女性丰胸--绝了
�秋冬减肥法１天１斤
�丰胸--让女人尖叫！
�打呼噜--当晚止鼾！

更多关于打架的新闻社科院统计局数据再打架房价上涨幅度相差近5% 2010-12-08 15:31
马光远：经济数据打架统计部门应真诚解释 2009-06-21 08:25
陆志明：失业率数据打架背后的失业保障残缺 2009-04-08 08:10
毛建国：楼价数据打架也许更能逼近真相 2008-11-04 15:37
青雁：统计数据何时不再打架 2008-11-04 08:34

图铃下载新浪公益
【杂志】北方旱情严重恋爱微博战场攻略【游戏】手机游戏中心三国猛将口袋西游前世缘【手机】签名也能动起来创意贺卡DIY 祈福许愿【专题】精美图铃推荐新春短信祝福非常笑话【图片】经典美女大集结风韵无限蛊惑我撞我添【主题】精品主题推荐娇俏兔女郎欧美细品味【短信】全城热恋交友让你的照片开口送祝福【推荐】祈福许愿祝福改变一生的签名头条新闻废墟上矗立起绿色希望河南来京四胞胎盼救助公益可以如此充满创意如何跳出拉闸限电怪圈新技术助力弱势群体低薪致公益人才紧缺民间图书馆遇生存困境贫困县建别墅专供领导

支持(0) 反对(0) vavin_love | 园豆：200 (初学一级) | 2011-02-26 21:56

是啊，先到取网页所有内容，然后用正则表达式取想要的内容啊

支持(0) 反对(0) artwl | 园豆：16736 (专家六级) | 2011-02-27 11:40

就是如何获取标题和正文部分其他的都不要详解谢谢

支持(0) 反对(0) vavin_love | 园豆：200 (初学一级) | 2011-02-27 13:21

@天行健自强不息:我已经知道如何获取网页内容和剔除html标签了但是我真正所需要的是新闻的标题和新闻的正文内容其他的都不要如何做详解谢谢

支持(0) 反对(0) vavin_love | 园豆：200 (初学一级) | 2011-02-27 22:38

表示自己学习下正则就神马都搞定了。别人跟你说了一次你还是不会啊。

massinger | 园豆：706 (小虾三级) | 2011-02-27 22:34

用perl处理吧，看看这个http://szedwin.gotoip1.com/read.php?tid-1035.html，取的就是标题和正文

笑翱江湖 | 园豆：126 (初学一级) | 2011-12-06 13:56

写个采集软件不是一个简单的事情，找个现成的采集器来用一下，有很多，或者找个专业做采集的帮你做，比如数据农场，你百度一下就看到了。

流浪的军刀 | 园豆：206 (菜鸟二级) | 2013-02-27 15:42

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。