首页新闻招聘找找看知识库

爬虫动态请求巨潮咨询网信息,只有前199页(总共400+)有返回信息?

0
悬赏园豆:100 [待解决问题]

爬虫动态请求巨潮咨询网信息,只有前199页(总共400+)有返回信息,从200页开始就没有返回信息了,我尝试了按时间各种排序,还是只能抓取到前199页的信息,尝试把页面条数从30 改到50(最大好像是50 )之后只有119页有返回信息了,小白不知道怎么解决,求教。

import requests
import time

URL = 'http://www.cninfo.com.cn/cninfo-new/announcement/query'
HEADER = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest'
}


START_DATE = '2001-09-20'  # 首家农业上市企业的日期
END_DATE = str(time.strftime('%Y-%m-%d'))  # 默认当前提取,可设定为固定值
# OUT_DIR = 'D:/workspace/cninfo/report/agriculture'
# OUT_DIR = '/home/captain/PycharmProjects/reportPDF'
OUTPUT_FILENAME = '年度审计报告'
# 板块类型:shmb(沪市主板)、szmb(深市主板)、szzx(中小板)、szcy(创业板)
PLATE = 'szzx;'


MAX_PAGESIZE = 50
MAX_RELOAD_TIMES = 5
RESPONSE_TIMEOUT = 10





def get_response(page_num, return_total_count=False):

    query = {
        'stock':'',
        'searchkey': '年度审计报告',
        'plate':'',
        'category':'',
        'trade':'',
        'column': 'szse',
        'columnTitle': '历史公告查询',
        'pageNum': page_num,
        'pageSize': MAX_PAGESIZE,
        'tabName': 'fulltext',
        'sortName':'',
        'sortType':'',
        'limit':'',
        'showTitle':'',
        'seDate': '请选择日期',
    }

    res = requests.post(URL, query, HEADER, timeout=RESPONSE_TIMEOUT)
    print(res.text)


get_response(118,True)
大长胡子的主页 大长胡子 | 初学一级 | 园豆:102
提问于:2018-06-13 18:26
< >
分享
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册