首页
新闻
会员
周边
捐助
园子
·
关注
·
粉丝
·
会员
·
随便看看
·
消息
欢迎,请先
登录
或者
注册
。
登录
/
注册
闪存
博客
发言
小组
投递
新闻
提问
博问
添加
收藏
文库
问题反馈
问题列表
我关注的
我的博问
博问标签
如何从海量网页中抽取出作者,时间,评论内容等信息?
0
[待解决问题]
hbase中有海量网页源代码,需要从海量源代码中精确抽取出【作者,时间,评论内容,点击数】等信息,请问,我该按照什么步骤,思路操作?
文本处理
文本挖掘
jonny201251
|
菜鸟二级
|
园豆:
208
提问于:2016-12-14 09:57
显示帮助
使用"Ctrl+Enter"可进行快捷提交,评论支持部分 Markdown 语法:[link](http://example.com) _italic_ **bold** `code`。
<
>
分享
分享您的问题
所有回答(2)
0
同求,mark
悦光阴
|
园豆:2251
(老鸟四级)
|
2016-12-14 13:05
编辑文本
预览
上传图片
Ctrl+Enter键快速提交
0
爬虫
ycyzharry
|
园豆:25683
(高人七级)
|
2016-12-15 23:21
编辑文本
预览
上传图片
Ctrl+Enter键快速提交
清除回答草稿
您需要
登录
以后才能回答,未注册用户请先
注册
。