首页 新闻 搜索 专区 学院

正则表达式采集soso结果的问题

0
悬赏园豆:10 [已解决问题] 解决于 2012-04-16 18:38

终于找到原因了,问题已解决,结贴

问题补充:

二组正则表达式没任何区别,就是下面那个在前面加了<h3>

就这点不同

网页源码里有这样的

<h3><a href="http://14545825.blog.hexun.com/55381916_d.html"

晕啊,为什么采不到了呢

么么么的主页 么么么 | 初学一级 | 园豆:6
提问于:2012-04-16 10:56
< >
分享
最佳答案
0

new Regex(@"<h3><a href="(?<url>[^"]+)" [^>]+>(?<txt>[\s\S]+?)</a></h3>",...)

试一下

收获园豆:10
玉开 | 大侠五级 |园豆:8822 | 2012-04-16 12:38

试了,不行,编译错误

么么么 | 园豆:6 (初学一级) | 2012-04-16 12:44

@么么么: 

new Regex(@"<h3><a href=""(?<url>[^"]+)"" [^>]+>(?<txt>[\s\S]+?)</a></h3>",RegexOptions.IgnoreCase)

表意代码。

玉开 | 园豆:8822 (大侠五级) | 2012-04-16 13:44

还是不行,苦B,不管怎么样都是编译错误

么么么 | 园豆:6 (初学一级) | 2012-04-16 14:43

@么么么: 

编译错误?提示什么?详细信息,这个正则是我测试通过的

玉开 | 园豆:8822 (大侠五级) | 2012-04-16 18:04
其他回答(2)
0

现在的搜索网站有些数据是用JS加载的,这些数据在网页源码里看不到的

你点右键,查看网页源代码,然后用正则分析

artwl | 园豆:16526 (专家六级) | 2012-04-16 10:58

上面贴的就是网页源码啊

支持(0) 反对(0) 么么么 | 园豆:6 (初学一级) | 2012-04-16 11:10
0

关注学习。。。

KivenRo | 园豆:1722 (小虾三级) | 2012-04-16 12:56
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册