有了解的朋友没,介绍下
目前,“今日头条”日处理网页超过100万,采用Visual-based 抓取技术以确保内容来源足够准确。CEO张一鸣介绍“今日头条”每个月都会新增上百信息源,产品经理会根据市场上信息源的热门程度决定添加哪家进入抓取源。
这种技术不是没有实现可能,就是网页的正文提取机器学习算法,不依赖于网站结构,对网站正文实现抽取,我现在也正在做这部分的研究