Python中requests.session()的用法小结
作者:craftsman2020
可能大家对 session 已经比较熟悉了,也大概了解了session的机制和原理,但是我们在做爬虫时如何会运用到session呢,就是接下来要讲到的会话保持。
首先说一下,为什么要进行会话保持的操作?
session定义
requests库的session会话对象可以跨请求保持某些参数,说白了,就是比如你使用session成功的登录了某个网站,则在再次使用该session对象请求该网站的其他网页都会默认使用该session之前使用的cookie等参数。
尤其是在保持登陆状态时运用的最多,在某些网站抓取,或者app抓取时,有时强制登陆,有的是不登陆返回的数据就是假的或者说是不完整的数据,那我们不可能去做到每一次请求都要去登陆一下怎么办,就需要用到保持会话的功能了,我们可以只登陆一次,然后保持这种状态去做其他的或者更多的请求。
其次,我们该如何使用会话保持?举一个事例来说明一下:
session使用实例
http协议本身是无状态的,为了让请求之间保持状态,有了session和cookie机制。 requests 也提供了相应的方法去操纵它们。
requests中的session对象能够让我们跨http请求保持某些参数,即让同一个session对象发送的请求头携带某个指定的参数。当然,最常见的应用是它可以让cookie保持在后续的一串请求中。
下面,通过官方文档中的示例来了解如何使用它。
import requests s = requests.session() # 第一步:发送一个请求,用于设置请求中的cookies r1 = s.get('http://httpbin.org/cookies/set/sessioncookie/123456789') print(r1.text) # 第二步:再发送一个请求,用于查看当前请求中的cookies r2 = s.get("http://httpbin.org/cookies") print(r2.text)
运行结果
{
"cookies": {
"sessioncookie": "123456789"
}
}{
"cookies": {
"sessioncookie": "123456789"
}
}
从结果中我们可以看出,第二次请求已经携带上了第一次请求所设置的cookie,即通过session达到了保持cookie的目的。示例中创建了一个requests.Session()对象,通过该对象来进行http请求操作,该操作基本类似于requests.request()
由于session让请求之间具有了连贯性,那么,就有了跨请求参数和非跨请求参数的区别。即有时我想让所有请求均带有某个参数,而有时我只是想让单独的一条请求带上临时的参数。通过下面的例子来了解如何使用。
import requests s = requests.Session() s.headers.update({'x-test': 'true'}) # both 'x-test' and 'x-test2' are sent r1 = s.get('http://httpbin.org/headers', headers={'x-test2': 'true'}) print(r1.text) # 'x-test' is sent r2 = s.get('http://httpbin.org/headers') print(r2.text)
运行结果
# r1.text
{
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.22.0",
"X-Amzn-Trace-Id": "Root=1-5e91656f-b99f14a4d6f47f9e55a90bb4",
"X-Test": "true",
"X-Test2": "true"
}
}
# r2.text
{
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.22.0",
"X-Amzn-Trace-Id": "Root=1-5e91656f-e9741db4c2ca2fd6e0628396",
"X-Test": "true"
}
}
从结果中我们可以得出两条结论:
session可以为请求方法提供缺省数据,比如第一次请求中的{‘x-test’: ‘true’}就是缺省数据,此时的缺省数据就是跨请求参数。
方法级别的参数不会被跨请求保持,比如第二次请求时,没有携带headers={‘x-test2’: ‘true’},返回的结果中也没有{‘x-test2’: ‘true’},说明该参数没有在第一次请求后被保持住。
另外说一点单独处理cookie字段,处理为字典格式
# 处理cookie内容为字典 cookie = "SINAGLOBAL=821034395211.0111.1522571861723; wb_cmtLike_1850586643=1; un=tyz950829@sina.com; wb_timefeed_1850586643=1; UOR=,,login.sina.com.cn; wvr=6; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWsNeq71O_sXkkXNnXFHgOW5JpX5KMhUgL.Fo2RSK5f1hqcShe2dJLoI0qLxK-L12qLB-zLxKqL1hnL1K2LxK-LBo5L12qLxKqL1hML1KzLxKnL1K.LB-zLxK-L1K-LBKqt; YF-V5-G0=c99031715427fe982b79bf287ae448f6; ALF=1556795806; SSOLoginState=1525259808; SCF=AqTMLFzIuDI5ZEtJyAEXb31pv1hhUdGUCp2GoKYvOW0LQTInAItM-ENbxHRAnnRUIq_MR9afV8hMc7c-yVn2jI0.; SUB=_2A2537e5wDeRhGedG7lIU-CjKzz-IHXVUm1i4rDV8PUNbmtBeLVrskW9NUT1fPIUQGDKLrepaNzTEZxZHOstjoLOu; SUHB=0IIUWsCH8go6vb; _s_tentry=-; Apache=921830614666.5322.1525261512883; ULV=1525261512916:139:10:27:921830614666.5322.1525261512883:1525239937212; YF-Page-G0=b5853766541bcc934acef7f6116c26d1" cookie_dict = {i.split("=")[0]: i.split("=")[1] for i in cookie.split("; ")}
参考文献
https://cloud.tencent.com/developer/article/1739949
https://blog.csdn.net/weixin_42575020/article/details/95179840
到此这篇关于Python中requests.session()的用法小结的文章就介绍到这了,更多相关python requests.session内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!