首页新闻找找看学习计划
当前位置:博问标签/爬虫/未解决/ 已解决
2
回答数

已解决问题 50 爬虫爬下来的怎么都是乱码...

’’’ import requests import re import os from lxml.etree import HTML def request_link(link): """链接请求"
1
回答数

已解决问题 80 python爬虫相关

要做一个30多个网站的爬虫,大多是table元素,有一些嵌套在了 frame里。有的需要下载附件,一开始想使用selenium,但是颅内构思了一下速度太慢了。想问问大佬们有什么好方法可以快速的拿下来呢
8
回答数

已解决问题 20 最近在写一个爬虫程序,遇到一点小问题

爬取的内容来自视频网站,网站大部分链接都是迅雷的,我通过解密后得到链接如下: http://dl74.80s.im:920/1610/%E7%BE%8E%E4%B8%BD%E4%BA%BA%E7%94
3
回答数

已解决问题 20 python网站动态数据爬取

本人分析百度贴吧试图进行爬取,发现各楼层回复并不出现在html文件中,经过百度后知道了有json这种东西。但经过本人f12分析却并没有找到相应的json文件,不知到是思路不正确还是寻找方式有勿,希望知
4
回答数

已解决问题 爬虫爬取数据

爬取 j东 数据多了会不会被封ip? 有何技术可以防止被封? 谢谢!
5
回答数

已解决问题 10 爬虫得到源代码只有<html><head></head><body></body></html>

如题~~~~requests.get()请求
2
回答数

已解决问题 100 如何开发一个Python爬虫的桌面程序

由于本人是小白一名 不知道具体应该怎么提问 还请大神不吝赐教 书籍 博客 视频都可以推荐 谢谢大家
2
回答数

已解决问题 5 一个困惑了很久的爬虫问题

http://app1.sfda.gov.cn/datasearch/face3/content.jsp?tableId=41&tableName=TABLE41&tableView=%E8%8D%A
1
回答数

已解决问题 如果用Php写个简单的爬虫程序?

用php,有没有封装好的,curl可以用,如果单独设置感觉好费时间,好多参数不会用!
2
回答数

已解决问题 是 我去拿58房源数据,过快了服务器会给我403,

完整的数据有20w字符,拒绝访问了只返回 7,8百的字符... 伤心 有大神吗 有解决办法没
2
回答数

已解决问题 关于python的函数查看

最近在学习python爬虫,但是在看视屏中别人写爬虫的时候,总能知道很多编译器不提示的函数,就是这些函数编译器不提示,但是可以调用,而且是凭记忆写出来的。比如说下面这几个函数: 这里面的 getcod
3
回答数

已解决问题 20 Python怎么爬取一个需要登录后再换到别的网页爬取数据?

1 # coding=utf-8 2 import requests 3 from http.cookiejar import CookieJar 4 s = requests.session() 5
2
回答数

已解决问题 Python爬虫抓取当当网图片时,正则表达式没有匹配到链接地址

最近正在学Python爬虫,从最基础的学起,即用 urllib 和 re 这两个包学抓取。用教材(韦玮《精通Python网络爬虫》)第77页的方法爬京东的图片完全没问题,但想照猫画个虎,爬一下当当网儿
4
回答数

已解决问题 200 Python小白,需要大神们的帮助

现在有这么一个需求,我有100个账号,需要登录到某网站(登录需要验证码)我需要同时登录这100个账号,然后把账号中我要的数据提取出来(登录成功后,每个账号需要到不同的页面拿取数据)我想做成一个Wind
1
回答数

已解决问题 20 关于C#爬虫

小弟用HttpWebRequest来模拟登陆并从一个网站上下载文件,这个网站下载文件的具体流程如下:1,用户名密码登陆。2,输入检索条件,检索条件作为POST的数据被提交到下一页面。3,在下一页面会展
1
回答数

已解决问题 爬虫——爬取到图片链接但下载到本地失败

#encoding:utf-8 import urllib2 import re #获取网页内容 def getHtml(url): req=urllib2.Request(url) req.add_
2
回答数

已解决问题 20 关于爬取图片的问题,怎么爬取网站结构

比如,给定一个网站的首页,然后爬取图片这个没问题,但是怎么爬取网站的所有图片呢?就是网站的目录结构
5
回答数

已解决问题 5 C# winform爬虫程序 ,最大线程数设置为多少合适?

C# winform爬虫程序 ,最大线程数设置为多少合适? 这个最大线程数,和物理内核数还是逻辑内核数有关?
1
回答数

已解决问题 20 通过Heritrix或者webmagic如何爬去指定url里的内容?

现在我有host和url,如何爬取这个url对应的内容呢?求大神指教,用heritrix或者webmagic
2
回答数

已解决问题 10 Heritrix如何提取指定网页的URL,只要URL,其他内容不要

我在做一个爬虫的测试,Heritrix如何才能把其他的内容过滤掉,我只要输入指定链接里面包含的链接?麻烦知道的大神说下,谢谢
1
回答数

已解决问题 15 天猫商城 获取商品上下架时间的方法

如何获得天猫商品的上下架时间,在哪里能找到上下架时间戳?
3
回答数

已解决问题 java 正则表达式 很多字符的组合 有多个 怎么写

比如 "1223801,122380,14瀚华01,111" 我想 写 任意字符 + , 的组合 有多个 怎么写? [\d]+ 表示数字 有多个 不能写 [[\d]+]+ 这样吧 加括号就成了分组了
1
回答数

已解决问题 10 如何使用c# sharppcap获取打开网址的html内容

我要抓取一个网页的html,但是那个网站的屏蔽比较严重,连用iframe都会屏蔽,控制台用ajax获取内容也会屏蔽,无奈想通过抓包来抓取数据,程序调用浏览器打开对应网址来获取html,发现fiddle
2
回答数

已解决问题 100 如何用python提取网页中框架的源代码

直接查看源代码的话是看不到这一段的,我在审查元素内找到了这个网页的地址,直接看的话 是可以看到源代码 但是新窗口打开的话 ,里面的内容是空白的怎么用python把这一段源代码抓出来啊 求提供思路 图1
5
回答数

已解决问题 100 爬虫如何抓取网站下拉动态加载的内容。

写一个java的小爬虫程序,爬知乎的一些内容。 知乎的关注者列表,页面拉到底加载更多的一些联系人 ajax实现,我ajax并不是很懂。 现在我想获得这部分新加载的数据,如何获取, 很多答案就是分析ht