使用requests库制作Python爬虫
更新时间:2018年03月25日 09:39:03 作者:豆芽菜橙
Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作。一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。
使用python爬虫其实就是方便,它会有各种工具类供你来使用,很方便。Java不可以吗?也可以,使用httpclient工具、还有一个大神写的webmagic框架,这些都可以实现爬虫,只不过python集成工具库,使用几行爬取,而Java需要写更多的行来实现,但目的都是一样。
下面介绍requests库简单使用:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 | #!/usr/local/env python # coding:utf-8 import requests #下面开始介绍requests的使用,环境语言是python3,使用下面的网址作为参考 #http://www.sse.com.cn/market/bonddata/data/tb/ request_param = { 'jsonCallBack' : 'jsonpCallback6588' , 'isPagination' : 'true' , 'sqlId' : 'COMMON_BOND_XXPL_ZQXX_L' , 'BONDTYPE' : '地×××府债券' , 'pageHelp.pageSize' : '25' , 'pageHelp.pageNo' : '2' , 'pageHelp.beginPage' : '2' , 'pageHelp.cacheSize' : '1' , 'pageHelp.endPage' : '21' } user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36' referer = 'http://www.sse.com.cn/market/bonddata/data/ltb/' #设置headers headers = { 'User-Agent' : user_agent, 'Referer' : referer} #设置代理 proxy = { "http" : "http://113.214.13.1:8000" } # 需要请求的URL地址 request_url = 'http://query.sse.com.cn/commonQuery.do?' #设置请求地址 response = requests.get(request_url, headers = headers, proxies = proxy, params = request_param); print (response.status_code) #文本响应内容 print (response.text) #json格式响应内容 print (response.json()) #二进制响应内容 print (response.content) #原始格式 print (response.raw) |
微信公众号搜索 “ 脚本之家 ” ,选择关注
程序猿的那些事、送书等活动等着你
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 reterry123@163.com 进行投诉反馈,一经查实,立即处理!
相关文章
pandas.DataFrame删除/选取含有特定数值的行或列实例
今天小编就为大家分享一篇pandas.DataFrame删除/选取含有特定数值的行或列实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2018-11-11Django项目如何配置Memcached和Redis缓存?选择哪个更有优势?
这篇文章主要介绍了Django项目如何配置Memcached和Redis缓存,帮助大家更好的理解和学习使用django框架,感兴趣的朋友可以了解下2021-04-04
最新评论