hbase中有海量网页源代码,需要从海量源代码中精确抽取出【作者,时间,评论内容,点击数】等信息,请问,我该按照什么步骤,思路操作?
微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。
同求,mark
爬虫