爬虫是什么意思

[已解决问题] 解决于 2018-07-19 17:43

刚刚看同学的一个项目其中的资讯模块说是使用的爬虫技术把别的网站的咨询趴下来再放入自己的数据库中我想知道具体是怎么实现 java程序中

KpGo | 初学一级 | 园豆：4
提问于：2018-07-18 15:53

< >

最佳答案

爬虫的基本原理介绍

Python爬虫原理

奖励园豆：5

ycyzharry | 高人七级 |园豆：25704 | 2018-07-18 17:56

大佬我想问的是java的爬虫

KpGo | 园豆：4 (初学一级) | 2018-07-18 19:06

@KpGo: 都一样请求目标,获得目标的响应,然后分析响应,就是返回给你html的页面定位你想要的数据拿下来;java麻烦,python,有识别模块方便开发

DanBrown | 园豆：1321 (小虾三级) | 2018-07-19 08:10

@KpGo: 可以用jsoup

ycyzharry | 园豆：25704 (高人七级) | 2018-07-19 09:49

@ycyzharry: 嗯嗯在网上查了一下您说的这个jsoup 我在慢慢消化一下谢谢

KpGo | 园豆：4 (初学一级) | 2018-07-19 17:42

其他回答(4)

我一直非常好奇.凭什么吧爬虫说成是一个技术....

如果要做到搜索引擎那种级别的爬虫.和我说技术也就认了.

但大多数的人用的就是抓网页存起来.就这还专门叫爬虫技术.

至于怎么实现..就是找一个httpclient发起一个请求.获取网页数据.然后写个正则解析.

吴瑞祥 | 园豆：29449 (高人七级) | 2018-07-18 15:59

大佬就是大佬厉害

我还想问一下就是使用DOM4J 读取xml文件但是xml文件过大怎么办解决

支持(0) 反对(0) KpGo | 园豆：4 (初学一级) | 2018-07-18 16:27

100m的xml

支持(0) 反对(0) KpGo | 园豆：4 (初学一级) | 2018-07-18 16:28

@KpGo: XML好像就得全读一遍吧.

一个文件就是一个对象.又没有索引什么的.

支持(0) 反对(0) 吴瑞祥 | 园豆：29449 (高人七级) | 2018-07-18 18:20

@吴瑞祥: 嗯好的谢谢

支持(0) 反对(0) KpGo | 园豆：4 (初学一级) | 2018-07-18 19:04

网页爬下来之后还有解析，像Python解析就可以根据标签定位，Java的比较麻烦，但最后主要是要把网页中的数据拿到。之前就见过一个项目里用爬虫爬了非常多数据的。但是都是没有解析的，根本没用，而且他的解析方式就是Java中字符串的简单匹配，然后加上人工检查，差不多几千个文件，每个都上万行。。。而且爬的不同网页，每种的解析方式都得重新写。xml存储简单，但是解析的话，你可以看看我博客写的有python和Java的爬虫，Java都是用正则表达式来处理解析的，Python用的BeautifulSoup直接可以标签定位，非常方便。

AntzUhl | 园豆：215 (菜鸟二级) | 2018-07-18 17:13

额你说的大概就是指那种用 webclient 发起请求然后获取到页面的html文档 STring格式的数据然后写一个针对这种页面的正则表达式

。。剩下的就是对这个文本数据进行操作。。。

subString呀 indexOf呀什么什么的。。。

blurs | 园豆：660 (小虾三级) | 2018-07-18 17:15

推荐给大家一个好用的代理 Ip http://admin.rola-ip.site/login.html

一起努力吧 | 园豆：202 (菜鸟二级) | 2020-04-08 17:18

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。