<html>
<head>
<meta name="generator" content="CHM Decoder by GridinSoft LLC www.gridinsoft.com"><link rel="StyleSheet" href="___dtree.css" type="text/css" />
<script type="text/javascript" src="___dtree.js"></script>
</head>
<body>
d = new dTree("d");
d.add(0,-1,"Yum! 百胜餐饮集团 Media Monitoring 2007.05","");
d.add(1,0,"百胜餐饮集团信息","");
d.add(2,1,"世界瞩目新河南 产业转移涌中原 (大河报, 2007.04.24)","./clipping/KP20070424_27B6832BCBDAFE0D482572EA002B1C43.htm");
document.write(d);
</body>
</html>
html的源码 已经获取到了 现在需要把 d.add()里面的数据获取出来 获取出来的格式如
d.add(2,1,"世界瞩目新河南 产业转移涌中原 (大河报, 2007.04.24)","./clipping/KP20070424_27B6832BCBDAFE0D482572EA002B1C43.htm");
2 1 世界瞩目新河南 产业转移涌中原 (大河报, 2007.04.24) ./clipping/KP20070424_27B6832BCBDAFE0D482572EA002B1C43.htm
取出括号里面的 数据 分成 4条数据
使用正则匹配:
.*d\.add\(xxxxxxxxxx\)
正则表达式