想通过爬虫,将网页上的文章爬下来,整理归档,每篇文章对应一个pdf或者一个word。
如果是把静态网页爬成html格式的话直接用wget系统指令就行了。。。
如果像这样的呢?
https://www.cnblogs.com/okong/p/springboot-twenty-six.html
打开这个页面,然后将这个页面的文章抽出来整理到pdf中
@NeXT、: 到网上找一找有没有html转pdf的工具试试
三种Java下生成PDF方式的比较
Java生成PDF文件
...
网上很多这些内容啊!
python生成pdf报告、python实现html转换为pdf报告:https://www.cnblogs.com/shengulong/p/7994082.html
...
Python也有很多啊