# 使用的编程语言的工具
使用Java的一个解析网页库Jsoup获取网页中的html代码
```Java
Jsoup.connect("http://xxx.cn").get();
```
# 出现问题过程
首先有一个网页有一部分是这样
然后打开网页开发工具,可以看到这部分的代码
---华丽的分割线=----------------------------------------------------------
下面我需要使用程序获取这部分代码
主要代码如下,👇
```Java
//现在need_search是所有需要搜索关键字的链接了
for(String url : need_search){
Document doc = Jsoup.connect(url).get();
//先判断总体情况
Elements number_by_class = doc.getElementsByClass("num_nav");
System.out.println(number_by_class);
//Elements by_class = doc.getElementsByClass("normal_list2");
}
```
运行后输出这部分网页内容
是不是有一部分没有得到?
页码部分没有,(是想实现自动翻页爬取网页内容的功能,但是这部分卡住了)
# 我的猜想
可能是网页异步加载,这部分页码是通过脚本生成的,获取网页的时候没有加载完成,所以获取不到
# 请求帮助
请问如何获取这部分内容,我试过Java URLConnection获取,结果还是一样
正在使用httpClient获取,但是挺麻烦的,不知道还有没有其它办法?请指教,感激不急!
# 后续
先前在CSDN提问,但是还需要C币才能问,实在是没有。。。CSDN变了。。。
不同页数的内容我是这样获取的,给个例子:
String path = "http://xxx.cn/buffett_"; String path2 = ".html"; for (int i = 2; i <= a - 1; i++) { Document doc2 = Jsoup.connect(path + i + path2).timeout(8000).get();
...
}
首先谢谢您的关注和解答,不过我这里的问题不是这个问题。
我的问题是现在一个页面上有第一幅图片里面的-->
首页 1 2 3 4 ... 尾页
但是我在请求网页后,打印出来字符串,里面少了这部分的html,而我用网页打开的时候是可以看到的,所以觉得奇怪,这个问题您能看出是什么原因导致的吗?
万分感谢,卡了我好几天了
网页开发工具请求的内容已经出现了问题, 下一页显示的是 index_1 的索引, 所以实际这种逻辑不对, 需要再次观察具体的情况
– NAVERON 2年前