首页新闻招聘找找看知识库
当前位置: 博问标签 /爬虫/未解决/ 已解决
2
回答数

5 一个困惑了很久的爬虫问题

http://app1.sfda.gov.cn/datasearch/face3/content.jsp?tableId=41&tableName=TABLE41&tableView=%E8%8D%A
1
回答数

如果用Php写个简单的爬虫程序?

用php,有没有封装好的,curl可以用,如果单独设置感觉好费时间,好多参数不会用!
6
回答数

5 C# 爬虫程序

大家好,我这边根据需求需要使用C#做一个爬虫程序,但是,我这边没有一点思路,在网上百度了一下,都是建议使用HtmlAgilityPack对页面进行处理,这个没有问题,测试过了,但是,现在有一个问题是,
2
回答数

是 我去拿58房源数据,过快了服务器会给我403,

完整的数据有20w字符,拒绝访问了只返回 7,8百的字符... 伤心 有大神吗 有解决办法没
1
回答数

5 谢谢博客园的论坛,学到很多知识!

防止恶意访问,已结,谢谢博客园的论坛,学到很多知识!
2
回答数

关于python的函数查看

最近在学习python爬虫,但是在看视屏中别人写爬虫的时候,总能知道很多编译器不提示的函数,就是这些函数编译器不提示,但是可以调用,而且是凭记忆写出来的。比如说下面这几个函数: 这里面的 getcod
3
回答数

20 Python怎么爬取一个需要登录后再换到别的网页爬取数据?

1 # coding=utf-8 2 import requests 3 from http.cookiejar import CookieJar 4 s = requests.session() 5
1
回答数

关于去哪儿网和驴妈妈网酒店数据的爬取

最近做网站数据爬取,当爬到驴妈妈和去哪儿网的时候遇到了问题,我用谷歌浏览器监控网站的请求,发现得不到想要的酒店请求地址,请问有人做过吗,教教我,万分感激
2
回答数

Python爬虫抓取当当网图片时,正则表达式没有匹配到链接地址

最近正在学Python爬虫,从最基础的学起,即用 urllib 和 re 这两个包学抓取。用教材(韦玮《精通Python网络爬虫》)第77页的方法爬京东的图片完全没问题,但想照猫画个虎,爬一下当当网儿
4
回答数

200 Python小白,需要大神们的帮助

现在有这么一个需求,我有100个账号,需要登录到某网站(登录需要验证码)我需要同时登录这100个账号,然后把账号中我要的数据提取出来(登录成功后,每个账号需要到不同的页面拿取数据)我想做成一个Wind
1
回答数

20 关于C#爬虫

小弟用HttpWebRequest来模拟登陆并从一个网站上下载文件,这个网站下载文件的具体流程如下:1,用户名密码登陆。2,输入检索条件,检索条件作为POST的数据被提交到下一页面。3,在下一页面会展
2
回答数

爬虫新手遇到的问题:chrome使用开发者工具有的网站preview不显示层叠样式

就像下面这样,可是有的网站就可以正常显示,
1
回答数

python 爬虫 re 如何抓取 这种html的代码

<div style='display:block; width:100%; height:475.066px;'> <table width='100%' border='0' align='cen
2
回答数

python 使用webdriver 打开浏览器,但不能send_keys

python3.5 _x86 system:win7_x64 selenium3.5 geckodriver:0.18.0_x64 firefox:55_x64 代码: from selenium i
5
回答数

60 C# httpWebrequest模拟登陆网站(有验证码)

C# httpWebrequest模拟登陆网站,已经写好post只提交了验证码cookie一直提示验证码验证失败! https://user.qunar.com/passport/login.jsp?
5
回答数

20 爬虫——用requests在拉勾网爬取职位信息

在Python2.x版本上写的代码 ,运行代码的时候报错,KeyError: 'content' 代码如下: import json import requests def get_job_infor
0
回答数

爬虫——在京东商城爬取狗粮

问题:用BeautifulSoup在京东商城爬取狗粮信息时,对于价格这一点,个别价格爬取的结果是None ,然后分析网页源代码,发现不是在同一个标签,然而尝试调试异常或者另给标签,都没爬取到完整信息点
1
回答数

爬虫——爬取到图片链接但下载到本地失败

#encoding:utf-8 import urllib2 import re #获取网页内容 def getHtml(url): req=urllib2.Request(url) req.add_
1
回答数

5 scrapy

# -*- coding: utf-8 -*- import scrapy import requests import os import sys import io from scrapy.sel
0
回答数

50 pyspider的分布式运行成功,2台slave跑,但是时间并没有缩短问题?

1台master,2台slave,虚拟机ubuntu下,配置如下:一。master的config.json:{ "taskdb": "mysql+taskdb://pyspider:pyspider-
2
回答数

10 python多线程爬虫,提高效率,怎么写?

1 import requests 2 from scrapy.selector import Selector 3 import scrapy,datetime 4 import threading
2
回答数

10 webhttprequest爬取asp.net站点报错:Invalid postback or callback argument……

最近因为工作需要,写一个爬虫小软件。 一切基本就绪后突然在爬一个ASP.NET站点时出问题了,错误信息如下: 505|error|500|Invalid postback or callback ar
1
回答数

5 python爬虫怎么输入代理服务器的账号密码

公司用的代理服务器上网,每次打开网页都要弹出代理的账号密码进行验证,我现在想在python里实现登录代理,应该怎么做?
2
回答数

20 C# 提取有效页面url

做一个小爬虫,给定一个基地址,然后爬取页面的a标签。 现在遇到一个问题就是a标签会出现 相对地址、js代码,请问怎么屏蔽掉js代码的a标签,相对链接的加上域名