Python aiohttp模块使用笔记

本文是在使用aiohttp模块时的一点笔记。代码在Python 3.7下运行。

基本使用

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import ayncio
import aiohttp

async def main():
async with aiohttp.ClientSession(
headers={"User-Agent":"aiohttp"},
timeout=aiohttp.ClientTimeout(total=3)) as session:
async with session.get('http://httpbin.org/get') as resp:
print(resp.status)
print(await resp.text())
# body = await resp.read() # 读取字节流
# body_json = await resp.json() # 获取json对象,若Content-Type响应头不等于resp.json()方法的content_type参数(该参数值默认是application/json)会抛aiohttp.ContentTypeError异常,可以改为await resp.json(content_type=None),就不会去验证该响应头了,但如果JSON解码错误也会抛异常,抛json.JSONDecodeError异常

asyncio.run(main())

资源释放

  1. session要释放,调用await session.close()或使用async with。对于response,要调用resp.close()或使用async with

  2. 不能在读数据(如await resp.read()等)之前调用await resp.release(),否则会阻塞在读数据操作。

  3. 若报warning: Unclosed connection,则检查资源是否释放。如:

    1
    2
    3
    resp = await session.get(url)
    # await resp.read() # 不加这句或下面一句的话就会报warning:Unclosed connection
    # await resp.release()

设置超时

1
2
3
4
session = aiohttp.ClientSession(timeout=aiohttp.ClientTimeout(total=3))
# 或
session.get(url, timeout=aiohttp.ClientTimeout(total=3))
# 若超时则抛asyncio.TimeoutError异常

超时要自己设置,因为默认是5分钟,太长了

代理

1
2
3
4
# 没有给ClientSession对象传递proxy的方式,只有在请求时设置代理

session.get(url, proxy="http://127.0.0.1:8080")
# 代理不可用会抛aiohttp.ClientHttpProxyError异常

不验证ssl证书(注意考虑流量劫持)

1
2
3
session = aiohttp.ClientSession(connector=aiohttp.TCPConnector(verify_ssl=False))
# 或
session.get(url, ssl=False)

指定cookie

1
2
3
4
5
6
7
8
async def foo():
cookies = {'csrfToken': "my_value"}
async with aiohttp.ClientSession(cookies=cookies) as session:
print(session.cookie_jar.filter_cookies("https://xxx.com"))
async with session.get("https://xxx.com") as rp:
print(rp.cookies)
print(session.cookie_jar.filter_cookies("https://xxx.com"))

通过ClientSession的cookies参数指定cookies,使用该session请求任一的站点都会带上此cookie。若响应头带有set-cookie: csrfToken=1010753502;Expires=...;Domain=...;path=/;,session会根据该响应头更新csrfToken这个cookie值,且加上domain、expires等信息。

若不想使用该session请求任意站点都带上此Cookie,可以:

1
2
3
4
5
6
7
async def foo():
cookies = {'csrfToken': "my_value"}
async with aiohttp.ClientSession(cookies=cookies) as session:
from yarl import URL
session.cookie_jar.update_cookies(cookies, URL("https://xxx.com"))
# 使用该session请求xxx.com站点时才携带此Cookie

清除session里的cookies:session.cookie_jar.clear()

ValueError: too many file descriptoersin select()报错问题

一般是并发请求数太大导致的,通常通过减少并发数解决。

我遇到的情况:并发量设置的不高,运行一段时间后报该错误。通过搜索、调试,最后看aiohttp文档时发现是因为请求的https站点的服务器没有正确完成ssl连接,需要指定一个叫enable_cleanup_closed的参数为True

1
session = aiohttp.ClientSession(connector=aiohttp.TCPConnector(enable_cleanup_closed=True)

官方对enable_cleanup_closed参数的解释:

Some ssl servers do not properly complete SSL shutdown process, in that case asyncio leaks SSL connections.
If this parameter is set to True, aiohttp additionally aborts underlining transport after 2 seconds. It is off by default.


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!