PDF 教材没有书签,都是正文,我想让他自动识别或提取教材内容里的各个级别的标题,然后生成书签或者一键生成思维导图,省的我一个一个的去设置书签,四百多页,很麻烦!
书籍逻辑是:
第一章。。。 这种标题设为 1 级
第一节 。。。 这种标题设为 2 级
一、。。。 这种标题设为 3 级
(一)。。。 这种标题设为 4 级
1. 。。。 这种标题设为 5 级
1 )。。。 这种标题设为 6 级
1 )。。。 这种标题设为 7 级
这些编号后面的内容,都是黑体字,我想让书籍,自动识别,自动生成书签或者大纲,或者提取出来,或者像思维导图一样,
书籍的目录只到 3 级, 不够细化,我想细化到最低一级,这样子,就可以对书籍的整个结构,一目了然!!!!
我知道有个哥们儿有工具处理这个,不过他的业务是卖电子书拷贝的。qq:461573687 之前帮我生成过一本电子书的目录
看起来,你这PDF像是扫描的,那么可能需要用到 OCR 识别里面的文字,在将其变为文字后,自己写程序去分析。
在谷歌上搜索 OCR,有一些在线网站,能将PDF转换为文字。