首页 新闻 搜索 专区 学院

在Windows下写批处理,大量处理HTML文件中特殊内容

0
悬赏园豆:140 [已关闭问题]

有大量HTML文件,每个文件末尾都如下:

</body>
</html>
<!--This file is decompiled from a .CHM file <br>
by an UNREGISTERED version of Easy CHM. <br>
You can download Easy CHM at :

<a href="http://www.etextwizard.com/" target=_blank>
http://www.eTextWizard.com</a> <br><br>-->

 

想把注释的内容去掉,不知道怎么如何下手写这个.bat文件。

倒是看到了有linux下的解决方案,另外Javascript写的.js文件好像也可以。

但是我想写了之后给Windows下的用户使用想写成.bat,希望大家能献计献策。

 

 

任国强的主页 任国强 | 初学一级 | 园豆:30
提问于:2010-02-21 12:52
< >
分享
其他回答(3)
0

http://www.google.com/search?hl=zh-CN&newwindow=1&q=bat+%E5%AD%97%E7%AC%A6%E4%B8%B2%E6%88%AA%E5%8F%96&btnG=Google+%E6%90%9C%E7%B4%A2&lr=&aq=1&oq=bat%E5%AD%97%E7%AC%A6

邀月 | 园豆:25375 (高人七级) | 2010-02-21 15:00
谢谢你提供的搜索关键字。
支持(0) 反对(0) 任国强 | 园豆:30 (初学一级) | 2010-02-22 13:02
0

也可以用C#写个程序,通过正则表达式进行处理

另外请参考:

FINDSTR正则表达式的基本用法

1.findstr . 2.txt 或 Findstr "." 2.txt  
从文件2.txt中查找任意字符,不包括空字符或空行
====================

2.findstr .* 2.txt 或 findstr ".*" 2.txt
从文件2.txt中查找任意字符包括空行和空字符
====================

3.findstr "[0-9]" 2.txt
从文件2.txt中查找包括数字0-9的字符串或行
====================

4.findstr "[a-zA-Z]" 2.txt
从文件2.txt中查找包括任意字符的字符串或行
====================

5.findstr "[abcezy]" 2.txt
从文件2.txt中查找包括a b c e z y字母的字符串或行
====================

6.findstr "[a-fl-z]" 2.txt
从文件2.txt中查找小写字符a-f l-z的字符串,但不包含g h I j k这几个字母。
====================

7.findstr "M[abc][hig]Y" 2.txt
从文件2.txt中可以匹配 MahY , MbiY, MahY等…..
====================

8. ^和$符号的应用
^ 表示行首,"^step"仅匹配 "step hello world"中的第一个单词
$ 表示行尾,"step$"仅匹配 "hello world step"中最后一个单词
====================

9.finstr "[^0-9]" 2.txt
如果是纯数字的字符串或者行便过滤掉,例如2323423423 这样的字符串,如果是345hh888这样的形式就不成了。
====================

10.findstr "[^a-z]" 2.txt
同上,如果是纯字母的字符串或者行便过滤掉,例如 sdlfjlkjlksjdklfjlskdf这样的字符,如果是sdfksjdkf99999这样的形式,掺杂着数字就不成了
====================

11.*号的作用
前面已经说过了 ".*"表示搜索的条件是任意字符,*号在正则表达式中的作用不是任何字符,而是表示左侧字符或者表达式的重复次数,*号表示重复的次数为零次或者多次。
====================

12.findstr "^[0-9]*$" 2.txt
这个是匹配找到的纯数字,例如 234234234234,如果是2133234kkjl234就被过滤掉了。
   Findstr "^[a-z]*$" 2.txt
这个是匹配找到的纯字母,例如 sdfsdfsdfsdf,如果是213sldjfkljsdlk就被过滤掉了
如果在搜索条件里没有*号,也就是说不重复左侧的搜索条件,也就是[0-9] [a-z]那只能匹配字符串的第一个字符也只有这一个字符,因为有行首和行尾的限制,"^[0-9]$"第一个字符如果是数字就匹配,如果不是就过滤掉,如果字符串是 9 就匹配,如果是98或者9j之类的就不可以了。
=====================

13. "\<…\>"这个表达式的作用
这个表示精确查找一个字符串,\<sss 表示字的开始位置,sss\>表示字的结束位置
echo hello world computer|findstr "\<computer\>"这样的形式
echo hello worldcomputer|findstr "\<computer\>" 这样的形式就不成了,他要找的是 "computer"这个字符串,所以不可以。
echo hello worldcomputer|findstr ".*computer\>"这样就可以匹配了

查尔斯 | 园豆:3832 (老鸟四级) | 2010-02-21 15:21
这个我也想达到了, 但是老得编译生成,代码怪麻烦的。
支持(0) 反对(0) 任国强 | 园豆:30 (初学一级) | 2010-02-22 12:53
@rgqancy:如果仅仅是根据正则式去删除字符,你完全可以把正则表达式写在配置文件里
支持(0) 反对(0) 查尔斯 | 园豆:3832 (老鸟四级) | 2010-02-26 16:47
@查尔斯: 谢谢你的回复没分可发了,抱歉。
支持(0) 反对(0) 任国强 | 园豆:30 (初学一级) | 2010-02-28 14:46
0

bat不太行吧

可以试试PowerShell

贼寇在何方 | 园豆:255 (菜鸟二级) | 2010-02-21 21:17
PowerShell,Windows XP默认不带有。 我想要的效果: 1.用脚本技术实现,不用使用IDE和框架。 2.代码修改方便,不要编译。 另外,PowerShell,我只是略微了解,有待学习。
支持(0) 反对(0) 任国强 | 园豆:30 (初学一级) | 2010-02-22 13:01
0

推荐用PowerShell来处理。

风影极光 | 园豆:1573 (小虾三级) | 2010-02-26 17:00
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册