首页 > 脚本专栏 > python > Python httpx运行过程中无限阻塞

解决Python httpx 运行过程中无限阻塞的问题

2022-11-28 17:03:26 作者：多多鱼啊

这篇文章主要介绍了解决Python httpx 运行过程中无限阻塞的问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

Python httpx 运行过程中无限阻塞

requests 模块只支持 http1，在遇到 http2 的数据接口的时候（某乎的搜索接口），需要采用支持http2 请求的模块（如 httpx、hyper）。

本文是针对 httpx 在请求数据时，出现无限阻塞问题的一些处理方法。

httpx 的 timeout 有 bug，会导致脚本在运行一段时间后，出现线程阻塞卡死的问题（无限 timeout）。

1.通过 pm2 部署脚本

另外启动一个脚本，定时对该脚本进行重启操作。

举个栗子：

import time
import os

while True:
    time.sleep(60 * 60) # 一小时重启一次
    os.system('pm2 restart test')

这个方法有个不好的地方，在请求过程中，可能需要翻很多页，如果不断重启脚本，可能导致无法翻到最后一页。

2.通过装饰器给函数设置一个最大执行超时时间

当函数执行时间超过某个时间就抛出 TimeOut 异常

from func_timeout import func_set_timeout
import func_timeout
import time

@func_set_timeout(5)  # 函数最大执行时间 5s
def test():
    time.sleep(20)

def run():
    try:
        test()
        print('test 函数执行完成')
    except func_timeout.exceptions.FunctionTimedOut:
        print('test 函数执行超时')
run()

如上面例子那样，在 httpx.Client 所在函数设置一个额外等待时间，当该函数执行时间超过某个时间，就强制抛出 timeout 异常，避免程序无限阻塞。

python爬虫httpx的用法

安装命令：pip install httpx

请求方式

GET

import httpx

headers = {'user-agent': 'my-app/1.0.0'}
params = {'key1': 'value1', 'key2': 'value2'}
url = 'https://httpbin.org/get'
r = httpx.get(url, headers=headers, params=params)

POST

r = httpx.post('https://httpbin.org/post', data={'key': 'value'})

PUT

r = httpx.put('https://httpbin.org/put', data={'key': 'value'})

DELETE

r = httpx.delete('https://httpbin.org/delete')

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。