首页新闻找找看学习计划

请问有什么办法可以读取html页面显示的粗体和斜体?

0
悬赏园豆:50 [已解决问题] 解决于 2018-07-27 14:16

有一个记录思科命令的html文件,粗体和斜体的标签不一样,但是显示在页面上是一样的。
例如:
(html)
<b>atm</b><!--null--><b>exception-queue </b><!--null--><var>number</var>
<b class="cBold">address ipv6 <em class="cArgument" style="font-weight: normal">ipv6-address </em></p>
(页面显示)
atmexception-queue  number
address ipv6  ipv6-address
第一行的粗体标签和斜体标签分别是<b>和<var>,第二行的粗体标签和斜体标签分别是<b class="cBold">和<em class="cArgument" style="font-weight: normal">。
我想通过页面显示的粗体和斜体,生成一个新的html文件,这个html文件粗体标签和斜体标签将统一为<b>和<var>。
<b>atm</b><!--null--><b>exception-queue </b><!--null--><var>number</var>
<b>address ipv6</b> <var>ipv6-address </var></p>
请问有什么办法可以实现吗?

芽衣的主页 芽衣 | 菜鸟二级 | 园豆:482
提问于:2018-07-23 14:43
< >
分享
最佳答案
0

你可以先利用正则匹配,然后再替换。

收获园豆:50
HDWK | 菜鸟二级 |园豆:206 | 2018-07-23 15:46

你好!请问你说的正则匹配是用什么语言或者工具进行正则匹配呢?

芽衣 | 园豆:482 (菜鸟二级) | 2018-07-23 16:28

最后我自己找了一种方法,通过pypandoc把html文件转换成word文档,再把word文档转换成html文件,最后得到的html文件里面的标签就全部都统一了。
在python中安装pypandoc后执行命令
import pypandoc
pypandoc.convert(source='test.html', format='html', to='docx', outputfile='test.docx')
pypandoc.convert(source='test.docx', format='docx', to='html', outputfile='test_new.html')

芽衣 | 园豆:482 (菜鸟二级) | 2018-07-27 14:16
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册