from selenium import webdriver import time driver=webdriver.PhantomJS() driver.get("https://www.icourse163.org/category/computer#?type=10&orderBy=0&pageIndex=1") time.sleep(3) title=driver.title print(title)
小本白学年论文拟爬取各大慕课网站信息并进行汇总分析
问题:用python的selenium库+PhantomJs 对中国大学MOOC某课程信息进行爬取,却迟迟未响应(其他网页可以获得所需信息,猜想是否因为该网站禁止该方式爬取形式,有无其他获取ajax的形式)谢谢回答!
用这个可以拿到
driver.getPageSource(); //java里方法是这样写的
拿到的内容如下
拜求代码!
有响应,只不过使用程序请求时,加载完大约需要5分钟,所以等待一会,会认为没反应,实际是有响应的。
代码如下:
测试结果如下:
您好!可以试着爬取一下关于课程链接的信息吗!单个课程的信息已经收集完成,但无法完成循环,因为目录页找不到课程链接,如果可以,甚是感谢!!!
@做到平淡: 你的意思是爬取如计算机课程里面的所有单个课程的链接?
@silence-cc: 对的,就是从目录页爬取单个课程的链接,实现循环不是要获得所有课程的网址信息吗
@做到平淡: 可能我的phantomjs配置有问题,导致使用了selenium + chrom浏览器解决。代码如下
# -*- coding:utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import unittest
import time
from lxml import etree
class douyuSelenium(unittest.TestCase):
'''
利用unittest模块的测试类来解决获取下一页的网页源码问题。
正常情况,当点击下一页后,获取当前页的网页源码比较麻烦,而使用测试类的方法则可以很容易解决
'''
def setUp(self):
'''
初始化方法(固定写法)
'''
# 创建谷歌浏览器对象。
self.driver = webdriver.Chrome()
# 统计链接个数
self.num = 0
self.num2 = 1
# 保存链接列表
self.link_list = []
# 请求网页,如果该行代码放在testMooc方法,会导致抓取的数据有重复,而且漏抓
self.driver.get('https://www.icourse163.org/category/computer')
def testMooc(self):
'''
具体的测试用例方法(方法名开头固定以test开头)
'''
while True:
# 让网页完全加载,避免网页没加载完导致获取的数据丢失
time.sleep(3)
# 获取网页源码
html = self.driver.page_source
# 把源码解析为html dom文档
content = etree.HTML(html)
# 使用xpath去匹配所有的课程链接
course_list = content.xpath('//div[@class="m-course-list"]//div[@class="u-clist f-bg f-cb f-pr j-href ga-click"]/@data-href')
for item in course_list:
# 拼接获取完整的课程链接
link = 'https://www.icourse163.org' + item
# 添加课程链接到保存的链接列表
self.link_list.append(link)
# 退出循环条件,从网页源码里面没找到某个类名,则返回为-1,进而作为当点击下一页时,如果没法点击时,则此时的返回值不为-1
if (html.find('ux-pager_btn ux-pager_btn__next z-dis')) != -1:
break
# 模拟浏览器手动点击下一页
self.driver.find_element_by_xpath('//li[@class="ux-pager_btn ux-pager_btn__next"]/a').click()
# 输出课程链接及统计个数
for each in self.link_list:
if(self.num % 20 == 0):
self.num2
print('\n' + '='*30 + '第' + str(self.num2) + '页课程链接列表' + '='*30 + '\n')
self.num2 += 1
self.num += 1
print(each)
# 输出该学科的所有课程链接的个数
print self.num,len(self.link_list)
def tearDown(self):
''' 退出方法(固定写法)'''
self.driver.quit()
if __name__ == '__main__':
unittest.main()
代码图片:
测试结果如下: