首页 新闻 搜索 专区 学院

爬虫是什么意思

0
[已解决问题] 解决于 2018-07-19 17:43

刚刚看同学的一个项目 其中的资讯模块 说是使用的爬虫技术  把别的网站的咨询趴下来  再放入自己的数据库中  我想知道具体是怎么实现   java程序中

KpGo的主页 KpGo | 初学一级 | 园豆:4
提问于:2018-07-18 15:53
< >
分享
最佳答案
0
奖励园豆:5
ycyzharry | 高人七级 |园豆:24314 | 2018-07-18 17:56

大佬 我想问的是java的爬虫

KpGo | 园豆:4 (初学一级) | 2018-07-18 19:06

@KpGo: 都一样请求目标,获得目标的响应,然后分析响应,就是返回给你html的页面定位你想要的数据拿下来;java麻烦,python,有识别模块方便开发

DanBrown | 园豆:1513 (小虾三级) | 2018-07-19 08:10

@KpGo: 可以用jsoup

ycyzharry | 园豆:24314 (高人七级) | 2018-07-19 09:49

@ycyzharry: 嗯嗯  在网上查了一下  您说的这个jsoup 我在慢慢消化一下  谢谢

KpGo | 园豆:4 (初学一级) | 2018-07-19 17:42
其他回答(4)
1

我一直非常好奇.凭什么吧爬虫说成是一个技术....

如果要做到搜索引擎那种级别的爬虫.和我说技术也就认了.

但大多数的人用的就是抓网页存起来.就这还专门叫爬虫技术.

至于怎么实现..就是找一个httpclient发起一个请求.获取网页数据.然后写个正则解析.

吴瑞祥 | 园豆:29369 (高人七级) | 2018-07-18 15:59

大佬就是大佬 厉害

我还想问一下 就是使用DOM4J 读取xml文件  但是xml文件过大 怎么办 解决

支持(0) 反对(0) KpGo | 园豆:4 (初学一级) | 2018-07-18 16:27

100m的xml

支持(0) 反对(0) KpGo | 园豆:4 (初学一级) | 2018-07-18 16:28

@KpGo: XML好像就得全读一遍吧.

一个文件就是一个对象.又没有索引什么的.

支持(0) 反对(0) 吴瑞祥 | 园豆:29369 (高人七级) | 2018-07-18 18:20

@吴瑞祥: 嗯 好的  谢谢

支持(0) 反对(0) KpGo | 园豆:4 (初学一级) | 2018-07-18 19:04
0

网页爬下来之后还有解析,像Python解析就可以根据标签定位,Java的比较麻烦,但最后主要是要把网页中的数据拿到。之前就见过一个项目里用爬虫爬了非常多数据的。但是都是没有解析的,根本没用,而且他的解析方式就是Java中字符串的简单匹配,然后加上人工检查,差不多几千个文件,每个都上万行。。。而且爬的不同网页,每种的解析方式都得重新写。xml存储简单,但是解析的话,你可以看看我博客写的有python和Java的爬虫,Java都是用正则表达式来处理解析的,Python用的BeautifulSoup直接可以标签定位,非常方便。

AntzUhl | 园豆:215 (菜鸟二级) | 2018-07-18 17:13
0

额  你说的 大概就是指那种 用 webclient 发起请求 然后获取到页面的html文档  STring格式的数据 然后 写一个针对这种页面的正则表达式 

。。剩下的就是对这个文本数据进行操作。。。

subString呀  indexOf呀  什么什么的。。。

blurs | 园豆:667 (小虾三级) | 2018-07-18 17:15
0

推荐给大家一个好用的代理 Ip http://admin.rola-ip.site/login.html

一起努力吧 | 园豆:202 (菜鸟二级) | 2020-04-08 17:18
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册