是想分析word文档里面的内容,还是把word都转换为统一的格式啊,我曾经也遇到类似的问题,有几百万分格式不统一的word文档,都是简历的,要求转换为统一的格式,唉,不会搞啊,程序真的无法解决这个问题
提取word里面的文本吗?,分析格式估计挺麻烦的。
这个方法靠谱点,提取出文本,然后分析关键词。
不知道楼主是想达到什么样的“智能分析”呢?能否描述的详细一点?我最近做过处理智联招聘上下载的word简历的程序,也许能帮到你。
把简历里的信息,全部分字段提取出来,你那是这样吗?
@kaynet: 这是我之前做程序测试时的一个截图 ,当时是为hr做的,用来把智联的word简历内容提取出来,整理成excel文档,方便面试的。
第一步:写一个匹配格式的程序,把所有简历按格式区分开.这个比较有难度
第二步:给每一种建立写一个数据匹配方法.
最好数据格式能有一个规范!没有规范的话适配难度很大!
推荐docX.dll 读取doc方便 读取信息后 使用正则匹配 提取相似度高值 智能分析也不一定能百分百 模版都来自一处还好处理 如51job
你是抓取网站的数据么?那就用正则呗