在做正则匹配的时候,标识在后边咋办,
正则表达式:
1 .*?\[.(*?)\]<br/>
这个<br/>才是标识符...就是想根据<br/>
来截取内容
匹配的字符串是:
<div style="display:none"><p class="publishdate">研报日期:2018-09-27</p><p style="line-height: 164.28%;">组合收益不考虑交易佣金和印花税费。<br/><br/> 如果期间碰到可能会对个股基本面发生重大恶化的事件或者对证券市场重大影响的国内外政治经济重大事件,将在每日盘前临时调整股票清单和权重。<br/><br/>如果期间碰到可能会对个股基本面发生重大恶化的事件或者对证券市场重大影响的国内外政治经济重大事件,将在每日盘前临时调整股票清单和权重。<br/><br/>[银河证券]<br/>[点击查看PDF原文]
想匹配到的结果是:银河证券
\[.*?\]<br/>
试试
不行,,匹配到其他的带`[]`的了
@会发光: http://tool.oschina.net/regex/ 这个网址测试的没有问题
@guodaxia:
为啥我这获取到的是一大段呢...
@会发光: \[.*\]<br/>
这样呢?,?贪婪匹配了。
@guodaxia: 这种也试过,也是获取到一大段
@会发光: 把全部的文本附件一下,看看。就是用来匹配的文本
@guodaxia:
1 <p class="publishdate">研报日期:2018-09-27</p><p style="line-height: 164.28%;"> 金色九点半是我们在东方财富漂亮 50 指数成份股的基础上,从中挑选出未来一周有望表现优秀的 10 只个股。 该产品的目标客户:适合中等风险承受能力,中线波段操作,介于激进型和稳健型之间的投资者。<br><br> 产品以日报形式在每个交易日的 9:15 以前发布,盘中不做操作提示。<br><br> 本投资组合暂设初始投资资金为 100.00 万元,运作期限一年。<br><br> 每周三收盘换股,周四开盘前发布,金色九点半由 10 只股票标配。在任何市场状态下都基本满仓操作。<br><br> 在产品设立开始日,每只股票初始资金按等权重分配,各自权重为 10.00%。在持股的一个周期(从星期四开盘到下星期三收盘),原则上不做股票买卖操作(除非发生分红或再融资,下面有详细说明)。每只股票的权重随着股票的上涨下跌而发生变化,我们在报告中将给出每只股票的权重。如果这 10 只股票在某个交易日收盘后有任何一只股票的权重超过[7.50%, 12.50%]的范围,我们将对组合进行动态调整使得每只股票的权重重新设为 10.00%。<br><br> 每个星期的星期四为我们的常规换股日(遇节假日顺延至下周)。 我们将卖出需要调出的股票,并按卖出个股的总市值加现金平均分配到需要调入的股票中去。具体涉及的个股及权重变化我们将在股票池盘前操作计划中给出。如果遇到调入的股票在上一个交易日出现收盘涨停或者调出的股票在上一个交易日出现收盘跌停的情况,我们将不做调整处理。在计算组合及个股的收益率时,我们统一将调入调出价格设为相应个股星期三的收盘价。<br><br> 如组合所持个股在持股期内分红(送转),则相应进行持仓数量和现金余额变动,而组合一般不参与上市公司再融资(如配股或公开增发),如遇到上市公司再融资,则会根据市场运行情况进行卖出操作。<br><br> 组合收益不考虑交易佣金和印花税费。<br><br> 如果期间碰到可能会对个股基本面发生重大恶化的事件或者对证券市场重大影响的国内外政治经济重大事件,将在每日盘前临时调整股票清单和权重。<br><br> 本投资组合只针对东方财富证券投资顾问作投资策略的模拟示范,不构成任何具体的投资建议,任何投资者参考本投资组合的投资行为风险自负。请阅读最后一页法律声明及风险提示。<br><br> 东方财富漂亮50指数(加权)和东方财富漂亮50指数(等权)在东方财富Choice金融终端上的指数代码分别为800050和800051,或搜索DFCFPL50也可找到指数的实时走势和成份股信息。[东方财富证券]<br/><a href="http://****************.pdf" target="_blank" style="color:Red"><b><em class="download"></em>[点击查看PDF原文]</b></a> <a href="**********" target="_blank" style="color:blue">今日最新研究报告</a></p><b>提示:本文属于研究报告栏目,仅为机构或分析人士对一只股票的个人观点和看法,并非正式的新闻报道,本网不保证其真实性和客观性,一切有关该股的有效信息,以沪深交易所的公告为准,敬请投资者注意风险。</b>
@会发光: \[((?!\[.*\]).)*\]<br/>
@guodaxia: 你这有点厉害啊...看不太懂,但是能用,厉害!
@会发光: 之前往前面贪婪了[xxx]的内容,这里排除了这种情况。参考的:https://www.jb51.net/article/52491.htm
@guodaxia: 为啥在Python里的时候就只能获取到最后一个字“券”呢,
quans = re.search('\[((?!\[.*\]).)*\]<br/>',zhengwen,re.S).group(1)
@guodaxia: 原文网页:http://guba.eastmoney.com/news,gonggaoyanbao,784681799.html
help...
@会发光:
\[(((?![.*\]).)*)\]<br/>
我不会python,哇哇哇
@guodaxia: 这样是可以的,太谢谢了,能请您解释一下这个正则么,看不懂是怎么匹配的....
@会发光: 加了一个分组,在[]内,将*也包含住了,就是[]里面的所有为一个分组,group(2)依旧是原来的券。group(0)是匹配的整個字符串