刚刚看同学的一个项目 其中的资讯模块 说是使用的爬虫技术 把别的网站的咨询趴下来 再放入自己的数据库中 我想知道具体是怎么实现 java程序中
大佬 我想问的是java的爬虫
@KpGo: 都一样请求目标,获得目标的响应,然后分析响应,就是返回给你html的页面定位你想要的数据拿下来;java麻烦,python,有识别模块方便开发
@KpGo: 可以用jsoup
@ycyzharry: 嗯嗯 在网上查了一下 您说的这个jsoup 我在慢慢消化一下 谢谢
我一直非常好奇.凭什么吧爬虫说成是一个技术....
如果要做到搜索引擎那种级别的爬虫.和我说技术也就认了.
但大多数的人用的就是抓网页存起来.就这还专门叫爬虫技术.
至于怎么实现..就是找一个httpclient发起一个请求.获取网页数据.然后写个正则解析.
大佬就是大佬 厉害
我还想问一下 就是使用DOM4J 读取xml文件 但是xml文件过大 怎么办 解决
100m的xml
@KpGo: XML好像就得全读一遍吧.
一个文件就是一个对象.又没有索引什么的.
@吴瑞祥: 嗯 好的 谢谢
网页爬下来之后还有解析,像Python解析就可以根据标签定位,Java的比较麻烦,但最后主要是要把网页中的数据拿到。之前就见过一个项目里用爬虫爬了非常多数据的。但是都是没有解析的,根本没用,而且他的解析方式就是Java中字符串的简单匹配,然后加上人工检查,差不多几千个文件,每个都上万行。。。而且爬的不同网页,每种的解析方式都得重新写。xml存储简单,但是解析的话,你可以看看我博客写的有python和Java的爬虫,Java都是用正则表达式来处理解析的,Python用的BeautifulSoup直接可以标签定位,非常方便。
额 你说的 大概就是指那种 用 webclient 发起请求 然后获取到页面的html文档 STring格式的数据 然后 写一个针对这种页面的正则表达式
。。剩下的就是对这个文本数据进行操作。。。
subString呀 indexOf呀 什么什么的。。。