首页 新闻 会员 周边 捐助

Java使用Jsoup请求网页内容,网页中的页码部分请求不到

0
[待解决问题]

# 使用的编程语言的工具

使用Java的一个解析网页库Jsoup获取网页中的html代码

```Java

Jsoup.connect("http://xxx.cn").get();

```

# 出现问题过程

首先有一个网页有一部分是这样

然后打开网页开发工具,可以看到这部分的代码

---华丽的分割线=----------------------------------------------------------

下面我需要使用程序获取这部分代码

主要代码如下,👇

```Java

//现在need_search是所有需要搜索关键字的链接了
            for(String url : need_search){
                
                Document doc = Jsoup.connect(url).get();
                //先判断总体情况
                Elements number_by_class = doc.getElementsByClass("num_nav");
                System.out.println(number_by_class);
                //Elements by_class = doc.getElementsByClass("normal_list2");
            }

```

运行后输出这部分网页内容

是不是有一部分没有得到?

页码部分没有,(是想实现自动翻页爬取网页内容的功能,但是这部分卡住了)

# 我的猜想

可能是网页异步加载,这部分页码是通过脚本生成的,获取网页的时候没有加载完成,所以获取不到

# 请求帮助

请问如何获取这部分内容,我试过Java  URLConnection获取,结果还是一样

正在使用httpClient获取,但是挺麻烦的,不知道还有没有其它办法?请指教,感激不急!

# 后续

先前在CSDN提问,但是还需要C币才能问,实在是没有。。。CSDN变了。。。 

 

 

NAVERON的主页 NAVERON | 菜鸟二级 | 园豆:202
提问于:2018-07-05 20:44

网页开发工具请求的内容已经出现了问题, 下一页显示的是 index_1 的索引, 所以实际这种逻辑不对, 需要再次观察具体的情况

NAVERON 2年前
< >
分享
所有回答(1)
0

不同页数的内容我是这样获取的,给个例子:

String path = "http://xxx.cn/buffett_";
String path2 = ".html";

        for (int i = 2; i <= a - 1; i++) {
            Document doc2 = Jsoup.connect(path + i + path2).timeout(8000).get();
...
}

 

ycyzharry | 园豆:25683 (高人七级) | 2018-07-06 09:44

首先谢谢您的关注和解答,不过我这里的问题不是这个问题。

我的问题是现在一个页面上有第一幅图片里面的-->

首页  1  2   3  4  ... 尾页

但是我在请求网页后,打印出来字符串,里面少了这部分的html,而我用网页打开的时候是可以看到的,所以觉得奇怪,这个问题您能看出是什么原因导致的吗?

万分感谢,卡了我好几天了

支持(0) 反对(0) NAVERON | 园豆:202 (菜鸟二级) | 2018-07-07 21:38
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册