首页 新闻 会员 周边 捐助

c#怎么解析html文件

0
悬赏园豆:20 [已解决问题] 解决于 2013-03-18 15:01

收藏夹的内容太多,有几百个吧,想整理下,从chrome导出的收藏夹是个html文件。

现在想把 href 后面的网址提取 并去重。

请问大神,怎么用c#解析html文件提取额想要的东西呢?使用正则表达式吗?

问题补充:

如果要提取额 add_date 和 icon 后的内容呢比如

<DT><A HREF="http://wenku.baidu.com/view/13f8dac4bb4cf7ec4afed0c9.html" ADD_DATE="1339383239" ICON="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAYAAAAf8/9hAAACW0lEQVQ4jZ2Ty0vVURDHP/O7D7PsQfQgKBHa5C6yxypaWEIEQbSphAxq08PIHgRRRPYgov6CIIhqUUQEQVTLFpUgQiS+7vWGejWv1u1qof5+v3POtLjeh7pr4MB8Z84Zvuc7M8LNLgXAKagDB1ibx9aBc3lsCn4ZtoYogF6t5X9MGt/j4XRBItHn653Wce38NqMAyYSvqWSw8KI1eDg3JxYEyqOHE/L0yST372ZJJQNONI1y9lSGVDKYV8DNZZD7bYnHBWdhRVVEKmIi2V+W6Sknxqhkf9m5BYwlis0zGBwIab02rosqPeobFksua9lcV8HWHZUcO768+GZoMGRDdazIAC53qKrqi2c5rVnb53Zu/+5UVfsTvs5MOy1Yf8LXwwfTeujAkPsxEqqqKntfaFGDmo1x1m+Iyeo1UXn75i8ALWdGOd88SioZ8OrlH1L9Ae1tM5IeDGdb74ji8v/asrWSc5dW6ljGsKk2Li2nM9rT7ROv8GR8zOqN26vly+cp1q2L6qo1kTINTJ5BJAL79lfJSNpwoTlDb7ePCRETOj59nJYrF8f03oO1kh4KqamJS6kLpqRsfyLk7MkMXZ0BYYiUC97TFcit6z9ZXx2TYsZavEIXVOHV80nt/OprGC6cmVzOaXvbDEMDZUnniGJLDGJxwfcVzwMUdU4RTyQaQRWYmnKMDJuyQdKSBiJwpGm5DKcNfb0By5Z6smv3YgBev/wjEzlH3bYK6huWSDkD4egH1cd7CiEFOoB5M1u0OFBXALL9IULjO8WY0ppaN7uqs76zYDS/ysWjxfX/BzktaPzSodo8AAAAAElFTkSuQmCC">04.ACL与包过滤_百度文库</A>

add_date 后面的 1339383239 和 icon后面的  04.ACL与包过滤_百度文库

混沌奇迹的主页 混沌奇迹 | 初学一级 | 园豆:70
提问于:2013-03-17 10:11
< >
分享
最佳答案
1

如果只是提取href 后面的网址,用正则表达式方便点

收获园豆:20
Yu | 专家六级 |园豆:12990 | 2013-03-17 14:49

那请问,如果要提取 add_date 和 icon后面的内容呢

比如

<DT><A HREF="http://wenku.baidu.com/view/13f8dac4bb4cf7ec4afed0c9.html" ADD_DATE="1339383239" ICON="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAYAAAAf8/9hAAACW0lEQVQ4jZ2Ty0vVURDHP/O7D7PsQfQgKBHa5C6yxypaWEIEQbSphAxq08PIHgRRRPYgov6CIIhqUUQEQVTLFpUgQiS+7vWGejWv1u1qof5+v3POtLjeh7pr4MB8Z84Zvuc7M8LNLgXAKagDB1ibx9aBc3lsCn4ZtoYogF6t5X9MGt/j4XRBItHn653Wce38NqMAyYSvqWSw8KI1eDg3JxYEyqOHE/L0yST372ZJJQNONI1y9lSGVDKYV8DNZZD7bYnHBWdhRVVEKmIi2V+W6Sknxqhkf9m5BYwlis0zGBwIab02rosqPeobFksua9lcV8HWHZUcO768+GZoMGRDdazIAC53qKrqi2c5rVnb53Zu/+5UVfsTvs5MOy1Yf8LXwwfTeujAkPsxEqqqKntfaFGDmo1x1m+Iyeo1UXn75i8ALWdGOd88SioZ8OrlH1L9Ae1tM5IeDGdb74ji8v/asrWSc5dW6ljGsKk2Li2nM9rT7ROv8GR8zOqN26vly+cp1q2L6qo1kTINTJ5BJAL79lfJSNpwoTlDb7ePCRETOj59nJYrF8f03oO1kh4KqamJS6kLpqRsfyLk7MkMXZ0BYYiUC97TFcit6z9ZXx2TYsZavEIXVOHV80nt/OprGC6cmVzOaXvbDEMDZUnniGJLDGJxwfcVzwMUdU4RTyQaQRWYmnKMDJuyQdKSBiJwpGm5DKcNfb0By5Z6smv3YgBev/wjEzlH3bYK6huWSDkD4egH1cd7CiEFOoB5M1u0OFBXALL9IULjO8WY0ppaN7uqs76zYDS/ysWjxfX/BzktaPzSodo8AAAAAElFTkSuQmCC">04.ACL与包过滤_百度文库</A>

就是 icon 后面的 书签名称 “04.ACL与包过滤_百度文库” 怎么提取 

混沌奇迹 | 园豆:70 (初学一级) | 2013-03-17 19:50

@混沌奇迹: 

用这个取到A数据

<A[^>]*href="([^>]*)"[^>]*add_date="([^>]*)"[^>]*icon="([^>]*)"[^>]*>(.*?)</A>

然后再用

$1 取 href 内容

$2 取 add_date 内容

$3 取 icon 内容

$4 取 a标签之间的内容

Yu | 园豆:12990 (专家六级) | 2013-03-17 22:01
其他回答(3)
0

http://htmlagilitypack.codeplex.com/

chenping2008 | 园豆:9836 (大侠五级) | 2013-03-17 10:12
0

使用正则表达式提取超链接就可以了啊

轻狂の书生 | 园豆:1042 (小虾三级) | 2013-03-17 16:45
0

正在表达式是正解!

Luke Zhang | 园豆:293 (菜鸟二级) | 2013-03-17 21:10
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册