首页 新闻 会员 周边 捐助

正则抓取网页博客

0
悬赏园豆:20 [已解决问题] 解决于 2011-07-29 16:07

需要抓取的是博客标题,博客时间,博客作者等等内容。

这个正则该怎么写?博客搜索页面里有很多条新闻,难道针对标题写一个,博客时间写一个,作者等等其他的各写一个正则么?然后把抓取到的东西分别放到各个数组。这样怎么把抓取到的各个相对应上,如果某条博客没有写发布时间,这样标题的数组长度和博客时间的长度不就不一样长了么,这就跑偏了,现在就是怎么能把一条的内容给提取出来。不跑偏,就是如果网页里有19条博客列表,就算有一条没有发布时间,也能完整的把这19条博客所要提取的东西提取出来。

哪位大牛能给个思路。

我正则刚入门,我想这个问题应该是正则能解决的。只是自己没想到。公司让做一个多论坛抓取的工具,还牵扯到多线程。。唉。。都生的很。谁有过类似的小项目,学习学习。。

Rookier的主页 Rookier | 小虾三级 | 园豆:652
提问于:2011-07-22 09:17
< >
分享
最佳答案
0

class="titlelnk"\s+.+?\s+target="_blank">(?<Title>.+?)</a></h3>.+?\s+class="lightblue">(?<Author>\w+)</a>\s+发布于\s+(?<DateTime>\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2})

这是我写的一个关于www.cnblogs.com的采集的正则表达式,这个表达式能够采集到标题,作者,时间,内容吗,如果你需要我可以继续帮你弄!记住这个表达式在C#中匹配是时候要加上单行匹配模式。由于你没有输出你要采集那个网站的新闻,我只好拿博客园给你演示了!

收获园豆:20
gumuoo | 初学一级 |园豆:90 | 2011-07-24 13:39
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册