首页 新闻 会员 周边

如何从海量网页中抽取出作者,时间,评论内容等信息?

0
[待解决问题]

hbase中有海量网页源代码,需要从海量源代码中精确抽取出【作者,时间,评论内容,点击数】等信息,请问,我该按照什么步骤,思路操作?

jonny201251的主页 jonny201251 | 菜鸟二级 | 园豆:208
提问于:2016-12-14 09:57
< >
分享
所有回答(2)
0

同求,mark

悦光阴 | 园豆:2251 (老鸟四级) | 2016-12-14 13:05
0

爬虫


ycyzharry | 园豆:25651 (高人七级) | 2016-12-15 23:21
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册