刚接触c#和正则表达式,现在要提取table中间文字,一边查资料现学现卖,一边提问,希望能给有个答案,多谢了!
我想要提取所有的中文字符(连接结果等)
<html> <head> <link rel="stylesheet" href="/public/css/newstyle.css" type="text/css"> </head> <body background="/images/bj_02.gif"> <center> <table border=0 cellspacing=1 cellpadding="4" width="80%" align="center"> <tr bgcolor="#6fa6e6" > <td height="26" colSpan="2" align="center" valign="middle" bgcolor="#6fa6e6" class=font1><b>连接结果</b></td> </tr> <tr> <td> <font color="red">您的连接数已满!您可以在[网络功能->断开网络]断开已有的连接</font> <br /> </td> </tr> </table> <table width="80%" border="0" cellspacing="1" cellpadding="0"> <tr> <td height="22" align="center" bgcolor="#6fa6e6"><strong>本月流量统计(单位MB)</strong></td> </tr> <tr> <td><table width="100%" border="0" cellspacing="1" cellpadding="4" bordercolordark="#000000" bordercolorlight="#6fa6e6"> <tr> <td align="center" bgcolor="#dce9f9">限定入流量</td> <td align="center" bgcolor="#dce9f9">限定出流量</td> <td align="center" bgcolor="#dce9f9">已用入流量</td> <td align="center" bgcolor="#dce9f9">已用出流量</td> <td align="center" bgcolor="#dce9f9">剩余入流量</td> <td align="center" bgcolor="#dce9f9">剩余出流量</td> <td align="center" bgcolor="#dce9f9">超出入流量</td> <td align="center" bgcolor="#dce9f9">超出出流量</td> <td align="center" bgcolor="#dce9f9">产生费用</td> <td align="center" bgcolor="#dce9f9">帐户余额</td> </tr> <tr> <td align="center" bgcolor="#cccccc"><font color="#FF0000"></font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000"></font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000">7293.003</font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000">2117.020</font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000"></font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000"></font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000"></font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000"></font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000">23.951</font></td> <td align="center" bgcolor="#cccccc"><font color="#FF0000">6.868</font></td> </tr> </table></td> </tr> </table> </center> <hr width=80% size=1 align=center > <center> </center> </body> </html>
非常感谢,现在剔除的非常干净!
匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?|<.*? />
匹配双字节字符(包括汉字在内):[^x00-xff]
你的页面只要获取所有中文就可以了。[^x00-xff]