首页新闻招聘找找看知识库
当前位置: 博问标签 /爬虫/未解决/ 已解决
3
回答数

100 现在还可以抓取微博仅自己可见内容吗

私是一个门外汉,不知有无方法可知他人仅自己可见微博内容, 如若有,又该何以操作,斗请先生告知。 承谢!
8
回答数

20 最近在写一个爬虫程序,遇到一点小问题

爬取的内容来自视频网站,网站大部分链接都是迅雷的,我通过解密后得到链接如下: http://dl74.80s.im:920/1610/%E7%BE%8E%E4%B8%BD%E4%BA%BA%E7%94
2
回答数

5 有很多筛选条件的列表页面如何防止被爬虫排列组合式的大量爬?

有一个网站,支持泛域名,即有很多二级域名,国内每个城市一个二级域名, 网站有一个列表页面,有很多筛选条件,不同条件的组合对应不同的url 那么这样就有无数个url 。 这样导致搜索引擎的爬虫不停的的爬
1
回答数

lucene7.4.0版本设置字段不分词,没有找到相关的类

我是用Field.Index没有发现这个静态属性了。Field中只有Store。现在要设置不分词字段应该怎么设置呢?谢谢!
3
回答数

30 python进程池爬取速度比单线程还要慢,求一个可实现的代码方案。

一开始,我用的是单线程,爬完整个397页数据用时,其中如果不向数据库写入是62秒左右,如果要向数据库插入文件需要82秒 后来我改成了进程池模式,4进程爬取,其中不向数据库写入用时22秒左右 ,进程池4
2
回答数

10 Jsoup的post怎么把请求体带上

最近在做爬虫,用到Jsoup,但是对Jsoup还不是很了解。现在有一个请求需要把请求体带过去,但是只会用请求参数的方式传过去,所以也没有获取到相关的数据。 但是我用Postman工具把请求体带上发送请
3
回答数

5 java模拟浏览器登录,进去爬取数据

最近都在弄爬虫,网上的资料中java爬虫的资料并不多,主要的还是python的爬虫资料。我弄了好久也没把那个网站登录进去,主要是该网站登录跳转,而且请求很多,。有哪位老铁能指导一下吗?
1
回答数

15 爬虫关于爬到只有标签,没有内容<html><head></head><body></body></html>是怎么回事

学习爬虫阶段,看到有爬某个网站的图片,然后通过requests访问,返回response.text的时候,缺只爬到了<html><head></head><body></body></html>,头标
3
回答数

20 python网站动态数据爬取

本人分析百度贴吧试图进行爬取,发现各楼层回复并不出现在html文件中,经过百度后知道了有json这种东西。但经过本人f12分析却并没有找到相应的json文件,不知到是思路不正确还是寻找方式有勿,希望知
1
回答数

头条新闻评论爬虫,返回信息为空的奇怪现象

我在爬头条新闻评论时遇到一个奇怪的问题,用postman模拟请求可以正常获得数据,但用python requests模块写的请求获取到的数据总是空的,有返回信息,但里面没有有用的价值。接口类似于这种:
0
回答数

5 python利用 itchat.get_chatrooms() 为啥获取不到所有的群名称

在获取群用户的时候碰到一个问题: 当利用get_chatrooms()获取微信群名称的时候不能把所有的群名称get下来,只有一部分。如果你在群里说一句话或者将群保存到“群聊”的时,这时候就能获取到相关
4
回答数

爬虫爬取数据

爬取 j东 数据多了会不会被封ip? 有何技术可以防止被封? 谢谢!
5
回答数

10 爬虫得到源代码只有<html><head></head><body></body></html>

如题~~~~requests.get()请求
2
回答数

100 如何开发一个Python爬虫的桌面程序

由于本人是小白一名 不知道具体应该怎么提问 还请大神不吝赐教 书籍 博客 视频都可以推荐 谢谢大家
2
回答数

20 有没有大神能用python模拟登录同程旅游网?

我用已经登录成功的cookie去获取同程其它页面获取不了 1 import re 2 import requests 3 import http.cookiejar 4 from PIL import
1
回答数

scrapy 报错 ValueError: dictionary update sequence element #0 has length 5; 2 is required

爬虫目的 新闻详情页的结构分两种,判断结构,再获取不同的内容。 请各位朋友看一下这个错误? 非常感谢 Traceback (most recent call last): File "/usr/loc
1
回答数

20 python多线程爬虫报错

用selenium写了一个爬动态网页的爬虫,用的ie,因为有很多IO,爬的太慢了想要用多线程。但是有以下报错不知道什么原因,希望大神解答啊 selenium.common.exceptions.Web
1
回答数

爬取简书首页文章,ajax请求模拟失败了,帮忙看看

1 /** 2 * 爬取简书首页文章 3 * 照着抓包抓到的文件request header,头部都给加上去了 4 * 怎么就是抓不到第二页呢? 5 */ 6 var http = require("
1
回答数

5 Python模拟登录,但是找不到网页的登录接口..

最近工作需要,需要登录网站来爬取数据,但是我找不到网站的登录接口,不知道怎么传参数,我点击登录的时候弹出来一个弹窗登录界面。 网址是:http://fanxing.kugou.com/ 界面如下:
2
回答数

5 一个困惑了很久的爬虫问题

http://app1.sfda.gov.cn/datasearch/face3/content.jsp?tableId=41&tableName=TABLE41&tableView=%E8%8D%A
1
回答数

如果用Php写个简单的爬虫程序?

用php,有没有封装好的,curl可以用,如果单独设置感觉好费时间,好多参数不会用!
6
回答数

5 C# 爬虫程序

大家好,我这边根据需求需要使用C#做一个爬虫程序,但是,我这边没有一点思路,在网上百度了一下,都是建议使用HtmlAgilityPack对页面进行处理,这个没有问题,测试过了,但是,现在有一个问题是,
2
回答数

是 我去拿58房源数据,过快了服务器会给我403,

完整的数据有20w字符,拒绝访问了只返回 7,8百的字符... 伤心 有大神吗 有解决办法没