首页新闻找找看学习计划

正则表达式匹配问题?

0
[待解决问题]

 

如图,1号区域了2号区域完全相同,但是1号是完整的区域,2号+3号才是完整的区域,所以就导致了2号的部分区域与1号完全相同,在正则匹配的时候

按照1号区域写则3号匹配不到,按照2号区域写,1号又会贪婪了2号区域...

表述的有点乱,就是文章的评论,1号是直接评论的文章,2号之所以比1号多,是因为2号评论了1号,所以....
我放上一个参考地址:https://xueqiu.com/statuses/c... 这个是随便找的测试地址(headers在下方),雪球方觉得不合适可以联系删除。

cookies是未登录状态的。

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest',
        'Referer': 'https://xueqiu.com/',
        'Content-Type': 'application/json;charset=UTF-8',
        'Cookie': 's=ee11txgiln; _ga=GA1.2.1146559934.1538272510; device_id=6d1339879611fe18e7ccd26bff3d51e5; __utmz=1.1540351301.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); aliyungf_tc=AQAAAKBKQzmNDgAANCC+PfASvjnuwIqz; xq_a_token=2da5342ee6de7bf35ff52ec296426e9c9670f647; xq_a_token.sig=C57MGRXU_-qi2-KXnJaQ6tX4qLI; xq_r_token=f37df9336ae424cffdbe3a31123f2ab4676ba00c; xq_r_token.sig=_VMY0dRhVuU359Ecmhs_1Gtuzto; _gid=GA1.2.2127579758.1542003777; Hm_lvt_1db88642e346389874251b5a1eded6e3=1539569640,1540350870,1541485173,1542003777; u=561542003777391; __utmc=1; __utma=1.1146559934.1538272510.1542003791.1542007783.7; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1542010360; _gat_gtag_UA_16079156_4=1'
    }

 

 

会发光的主页 会发光 | 菜鸟二级 | 园豆:266
提问于:2018-11-13 17:01
< >
分享
所有回答(1)
1

你这不就是一个json吗?为什么要用正则匹配。

Masako | 园豆:1637 (小虾三级) | 2018-11-14 17:05

...我没用过json的,无论啥都是正则...

支持(0) 反对(0) 会发光 | 园豆:266 (菜鸟二级) | 2018-11-14 17:09

@会发光: 转成字典就行了。很好操作的,可以了解一下。

支持(0) 反对(0) Masako | 园豆:1637 (小虾三级) | 2018-11-14 17:24
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册