有一个记录思科命令的html文件,粗体和斜体的标签不一样,但是显示在页面上是一样的。
例如:
(html)
<b>atm</b><!--null--><b>exception-queue </b><!--null--><var>number</var>
<b class="cBold">address ipv6 <em class="cArgument" style="font-weight: normal">ipv6-address </em></p>
(页面显示)
atmexception-queue number
address ipv6 ipv6-address
第一行的粗体标签和斜体标签分别是<b>和<var>,第二行的粗体标签和斜体标签分别是<b class="cBold">和<em class="cArgument" style="font-weight: normal">。
我想通过页面显示的粗体和斜体,生成一个新的html文件,这个html文件粗体标签和斜体标签将统一为<b>和<var>。
<b>atm</b><!--null--><b>exception-queue </b><!--null--><var>number</var>
<b>address ipv6</b> <var>ipv6-address </var></p>
请问有什么办法可以实现吗?
你可以先利用正则匹配,然后再替换。
你好!请问你说的正则匹配是用什么语言或者工具进行正则匹配呢?
最后我自己找了一种方法,通过pypandoc把html文件转换成word文档,再把word文档转换成html文件,最后得到的html文件里面的标签就全部都统一了。
在python中安装pypandoc后执行命令
import pypandoc
pypandoc.convert(source='test.html', format='html', to='docx', outputfile='test.docx')
pypandoc.convert(source='test.docx', format='docx', to='html', outputfile='test_new.html')