首页新闻找找看学习计划
3
回答数

回答被采纳 50 谁用爬虫实现过爬取优酷视频,妈的,太难爬了。搞不定。

如题,有没有大神爬下来过。搞了很久,都搞不定。爬不下来。
2
回答数

待解决问题 PHP curl爬虫如何爬取动态网页?

PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……另外可能写一个通用的爬取AJAX
5
回答数

已解决问题 100 采集反爬虫网站,就是采集网址的更新内容的链接,采集不到内容!

1 //以下是部分代码 2 List<string> Weburllist = new List<string>(); 3 List<string> Weburllistzx = new List<s
3
回答数

已解决问题 20 分布式爬虫如何url去重?

最近刚接触网络爬虫,写到分布式爬虫的url去重的时候感到很疑惑,网上看到的HashSet、MD5和BloomFilter都是单机上的,集群中难道只能用分布式数据库来检索?还有其他的好办法么,或者已经成
3
回答数

已解决问题 50 python scrapy+spynner如何实现抓取腾讯应用宝中一款APP的所有评论

python scrapy+spynner如何实现抓取腾讯应用宝中一款APP的所有评论。 例如网址:http://android.myapp.com/myapp/detail.htm?apkName=
8
回答数

待解决问题 40 如何用JavaScript实现图文混排内容按照A4等分页?

就像某些小说类网站那样?同一篇内容,可以自由分割成多页,然后像word一样呈现。
4
回答数

已解决问题 50 采集IP被封怎么办

用asp.net谢了个采集,用的是服务器采集的,现在IP被封掉了,有没有根本的解决方法,求解答
7
回答数

已解决问题 50 c# 怎么抓取网页上的信息

怎么抓取网页上某个指定的信息 比如 阅读(25887)┊ 评论 (13)┊ 收藏(22) ┊转载(75) 抓取到后面的数字 html <a href="#commonComment">评论</a> <
3
回答数

待解决问题 40 网络爬虫下一页的抓取问题

网络爬虫下一页的抓取问题: <a href="javascript:__doPostBack('rpMessage','pager$5')">6</a> 怎么能够获取下一页
10
回答数

已解决问题 50 爬虫登录 最好是天猫爬虫登录 有经验的大神请赐教

抓取页面需要登录后才能获取源代码。我该怎么跳过登录,直接获取登录后的页面的源代码啊? 谢谢^_^ ,如何获取到登录后页面的cookie
2
回答数

已关闭问题 10 获取指定微信服务号下的文章列表和内容

内容详情请点击问题查看!
5
回答数

已解决问题 10 有什么方法可以采集网站的关键词?

http://www.5118.com/baidu/rank/www.66law.cn/1我要采集这边的关键词要怎么弄?
3
回答数

已解决问题 50 对于页面下拉自动加载内容,爬虫如何获取数据?

编程新人,最近在学习爬虫技术,想拿一些网站练练手。 但是遇到了这个问题,有的网站(类似知乎)下拉到最下方时自动加载更多内容。 那么这样的话爬虫要如何获取这部分下拉加载的内容呢? 提供一些解决的思路也可
7
回答数

已解决问题 100 微博爬虫账号被封的解决方案

最近做微博的爬虫,发现账号被封的现象比IP被封更明显,所以需要多账号来进行爬虫。不知道大家都是如何获得微博大量的帐号用于爬虫的呢?
4
回答数

已解决问题 10 java 爬虫.Js网页如何爬取?

http://www.yanglee.com/product/product_Lists.aspx?ptype=105015016005 js网站的爬取,我一般就是看页面上请求后台数据 的地址,然后获
4
回答数

已解决问题 40 采集 关于HTML新闻列表地址获取,和乱码处理

问题1 获取HTML页面存在乱码 请问有什么好的方式了? 常规的获取1 HTTP请求头返回的编码 错误的2 获取HTML页面标签当中设置的编码 <meta charset="utf-8"/> 错误的
3
回答数

已解决问题 20 Java_爬虫,如何抓取Js动态生成数据的页面?

很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。H
3
回答数

待解决问题 10 C# 网络爬虫模拟登陆新浪微博

内容详情请点击问题查看!
4
回答数

已关闭问题 5 采集网站数据如何防止被封IP

目前最常见的就是代理IP 但是如何获取大规模的代理IP了?例如采集某个搜索引擎例如采集某些新闻网站之类的 求大神指教 防屏蔽策略 谢谢了
4
回答数

已关闭问题 100 如何快速获得一个网站的新贴?

网站如下,用的是discuz http://www.shufa121.com/forum.php 我用google reader订阅的,有更新不能马上收到,经常延时一个小时,甚至更久,有什么办法立即获
3
回答数

已解决问题 20 求一个好点的网络爬虫源码不? 不限语言 只看速度

求一个好点的网络爬虫源码不? 不限语言 只看速度 先给20分 如果有好的源码 可以加分(100分)
7
回答数

已关闭问题 5 新闻整合(采集)

内容详情请点击问题查看!
3
回答数

待解决问题 10 c#多线程网络爬虫技术

爬虫原理很简单,但要实现起来却挺复杂的。首先要懂得线程、还要熟悉深度优先和广度优先,最重要的是要根据自己的需要来设置正则表达式提取网上的内容。 需要一个程序,可以把网页上需要的内容根据自己的设置提取出
2
回答数

已解决问题 50 关于采集网站

内容详情请点击问题查看!
4
回答数

待解决问题 200 登陆 采集 验证码

如何对一个网站登陆后(过验证码) 进行信息采集