需要抓取的是博客标题,博客时间,博客作者等等内容。
这个正则该怎么写?博客搜索页面里有很多条新闻,难道针对标题写一个,博客时间写一个,作者等等其他的各写一个正则么?然后把抓取到的东西分别放到各个数组。这样怎么把抓取到的各个相对应上,如果某条博客没有写发布时间,这样标题的数组长度和博客时间的长度不就不一样长了么,这就跑偏了,现在就是怎么能把一条的内容给提取出来。不跑偏,就是如果网页里有19条博客列表,就算有一条没有发布时间,也能完整的把这19条博客所要提取的东西提取出来。
哪位大牛能给个思路。
我正则刚入门,我想这个问题应该是正则能解决的。只是自己没想到。公司让做一个多论坛抓取的工具,还牵扯到多线程。。唉。。都生的很。谁有过类似的小项目,学习学习。。
class="titlelnk"\s+.+?\s+target="_blank">(?<Title>.+?)</a></h3>.+?\s+class="lightblue">(?<Author>\w+)</a>\s+发布于\s+(?<DateTime>\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2})
这是我写的一个关于www.cnblogs.com的采集的正则表达式,这个表达式能够采集到标题,作者,时间,内容吗,如果你需要我可以继续帮你弄!记住这个表达式在C#中匹配是时候要加上单行匹配模式。由于你没有输出你要采集那个网站的新闻,我只好拿博客园给你演示了!