首页
新闻
搜索
专区
学院
园子
·
关注
·
粉丝
·
随便看看
·
消息
欢迎,请先
登录
或者
注册
。
登录
/
注册
闪存
博客
发言
小组
投递
新闻
提问
博问
添加
收藏
发布
招聘
文库
问题反馈
问题列表
我关注的
我的博问
博问标签
当前位置:
博问标签
/
爬虫
/
未解决
/
已解决
2
回答数
scrapy爬虫数据清洗
我想要左边红框里的是数据但是,可以从右边看到数据都是几个字几个字的,我以前都只会用xpath通过标签定位一个内容,像这样零散的怎么办啊,大佬帮帮忙,谢谢啦
1
回答数
20
请问一下,这样的数据如何逐条爬取呢?
http://push2his.eastmoney.com/api/qt/stock/fflow/daykline/get?lmt=0&klt=101&secid=1.000001&secid2=0.
2
回答数
5
selenium爬取的还是加载前的代码
今天尝试使用selenium爬取一个动态加载的网站,可是爬取到的还是它的js脚本,而不是F12后得到的html,这是为什么呢? from selenium import webdriver impor
4
回答数
100
爬虫得到的部分汉字乱码
为什么我得到数据有的乱码,有的不乱吗???乱码该怎么解决???求大佬赐教!!! 代码: import requests from pyquery import PyQuery as pq respon
2
回答数
50
爬虫爬下来的怎么都是乱码...
’’’ import requests import re import os from lxml.etree import HTML def request_link(link): """链接请求"
1
回答数
80
python爬虫相关
要做一个30多个网站的爬虫,大多是table元素,有一些嵌套在了 frame里。有的需要下载附件,一开始想使用selenium,但是颅内构思了一下速度太慢了。想问问大佬们有什么好方法可以快速的拿下来呢
3
回答数
5
请教关于爬虫提取非结构化数据的方法
网络爬虫,提取指定网页上的结构化数据,可以采用各种方法,自己编写爬虫,使用框架等。 那么提取网页上非结构化数据,要用什么方法呢?有人说用正则去匹配,但它不是非结构化的么?怎么用通用的方法去获取? 也可
8
回答数
20
最近在写一个爬虫程序,遇到一点小问题
爬取的内容来自视频网站,网站大部分链接都是迅雷的,我通过解密后得到链接如下: http://dl74.80s.im:920/1610/%E7%BE%8E%E4%B8%BD%E4%BA%BA%E7%94
3
回答数
20
python网站动态数据爬取
本人分析百度贴吧试图进行爬取,发现各楼层回复并不出现在html文件中,经过百度后知道了有json这种东西。但经过本人f12分析却并没有找到相应的json文件,不知到是思路不正确还是寻找方式有勿,希望知
4
回答数
爬虫爬取数据
爬取 j东 数据多了会不会被封ip? 有何技术可以防止被封? 谢谢!
5
回答数
10
爬虫得到源代码只有<html><head></head><body></body></html>
如题~~~~requests.get()请求
2
回答数
100
如何开发一个Python爬虫的桌面程序
由于本人是小白一名 不知道具体应该怎么提问 还请大神不吝赐教 书籍 博客 视频都可以推荐 谢谢大家
2
回答数
5
一个困惑了很久的爬虫问题
http://app1.sfda.gov.cn/datasearch/face3/content.jsp?tableId=41&tableName=TABLE41&tableView=%E8%8D%A
2
回答数
是 我去拿58房源数据,过快了服务器会给我403,
完整的数据有20w字符,拒绝访问了只返回 7,8百的字符... 伤心 有大神吗 有解决办法没
2
回答数
关于python的函数查看
最近在学习python爬虫,但是在看视屏中别人写爬虫的时候,总能知道很多编译器不提示的函数,就是这些函数编译器不提示,但是可以调用,而且是凭记忆写出来的。比如说下面这几个函数: 这里面的 getcod
3
回答数
20
Python怎么爬取一个需要登录后再换到别的网页爬取数据?
1 # coding=utf-8 2 import requests 3 from http.cookiejar import CookieJar 4 s = requests.session() 5
2
回答数
Python爬虫抓取当当网图片时,正则表达式没有匹配到链接地址
最近正在学Python爬虫,从最基础的学起,即用 urllib 和 re 这两个包学抓取。用教材(韦玮《精通Python网络爬虫》)第77页的方法爬京东的图片完全没问题,但想照猫画个虎,爬一下当当网儿
4
回答数
200
Python小白,需要大神们的帮助
现在有这么一个需求,我有100个账号,需要登录到某网站(登录需要验证码)我需要同时登录这100个账号,然后把账号中我要的数据提取出来(登录成功后,每个账号需要到不同的页面拿取数据)我想做成一个Wind
1
回答数
20
关于C#爬虫
小弟用HttpWebRequest来模拟登陆并从一个网站上下载文件,这个网站下载文件的具体流程如下:1,用户名密码登陆。2,输入检索条件,检索条件作为POST的数据被提交到下一页面。3,在下一页面会展
1
回答数
爬虫——爬取到图片链接但下载到本地失败
#encoding:utf-8 import urllib2 import re #获取网页内容 def getHtml(url): req=urllib2.Request(url) req.add_
2
回答数
20
关于爬取图片的问题,怎么爬取网站结构
比如,给定一个网站的首页,然后爬取图片这个没问题,但是怎么爬取网站的所有图片呢?就是网站的目录结构
4
回答数
5
C# winform爬虫程序 ,最大线程数设置为多少合适?
C# winform爬虫程序 ,最大线程数设置为多少合适? 这个最大线程数,和物理内核数还是逻辑内核数有关?
1
回答数
20
通过Heritrix或者webmagic如何爬去指定url里的内容?
现在我有host和url,如何爬取这个url对应的内容呢?求大神指教,用heritrix或者webmagic
2
回答数
10
Heritrix如何提取指定网页的URL,只要URL,其他内容不要
我在做一个爬虫的测试,Heritrix如何才能把其他的内容过滤掉,我只要输入指定链接里面包含的链接?麻烦知道的大神说下,谢谢
1
2
Next >
博问搜索
关于博问
»
博问帮助
»
园豆排名
»
发现问题
»
我有建议