首页新闻找找看学习计划
当前位置:博问标签/文本挖掘/未解决/ 已解决
2
回答数

待解决问题 如何从海量网页中抽取出作者,时间,评论内容等信息?

hbase中有海量网页源代码,需要从海量源代码中精确抽取出【作者,时间,评论内容,点击数】等信息,请问,我该按照什么步骤,思路操作?