theme: nico

最近在知識星球：Python讀者圈，遇到讀者提問：Python爬蟲如何加速？

這個問題涉及到一個爬蟲裏，甚至是整個Python編程裏都非常重要的問題：

如果同時下載1w張圖片，如何有效地加速程序運行，縮短下載時間？

今天我們一起來看一下常用的解決方案。

1、為什麼慢？

首先我們先看一下，原來的代碼裏，是什麼原因導致程序慢的？下面是代碼和運行結果：

```python import office

for i in range(1, 18): url = 'http://www.python-office.com/api/img-cdn/test/spider/{}.jpg'.format(str(i)) office.image.down4img(url, output_name=str(i)) ```

順序執行看起來很完美，但是完美的背後是不是有陷阱呢？

為了更好的理解這個代碼，我們先舉一個例子：你面前有10台洗衣機編號是從1到10，裏面轉滿了衣服需要你清洗，有的髒可能要強力洗洗的久，有的乾淨只需要速洗洗的快。

清洗以後，需要你記錄下他們的清理順序，有下列2種方案供你選擇： 1. 一個挨一個的洗完。先啟動洗衣機1號，等1號洗完了，再啟動2號，依次類推。這樣你記錄的結果和上圖一樣，是完美的按順序完成。 2. 先同時打開所有的洗衣機，哪一個洗完了就記錄哪一個。因為有的洗得快，有的洗得慢，這樣你記錄的結果是混亂的。

哪種方式最快呢？毫無疑問是第2種，因為可以讓所有的洗衣機同時工作，時間資源可以複用。

回到我們的程序，我們下載一張圖片也是分為2步：請求圖片資源，保存到本地。

上面的代碼之所以慢，就是因為它是請求到第1張的資源，保存到本地之後，再去請求第2張的資源。看起來很完美，但其實問題很大。

如何加快速度呢？我們如果可以先請求到所有的圖片資源（打開所有的洗衣機），然後再統一保存圖片（哪台洗完衣服，就先記錄哪台），這樣是不是就會快很多呢？

下面我們按照第2種思路，在Python裏的實現實現一下。

2、解決代碼

Talk is cheap,show me the code. 先上代碼和運行結果。 ```python import asyncio from aiohttp import ClientSession

tasks = [] url = "http://www.python-office.com/api/img-cdn/test/spider/{}.jpg"

async def hello(url, i='wanfeng', type='jpg'): async with ClientSession() as session: async with session.get(url) as response: if response.status==200: response = await response.read() # print(response) async with aiofiles.open('.'.join((str(i), type)), 'wb') as output_img: # for chunk in response: await output_img.write(response) output_img.close() print(f"下載成功，圖片名稱：{'.'.join((str(i), type))}")

def run(): for i in range(1, 18): task = asyncio.ensure_future(hello(url.format(i), i)) tasks.append(task)

def main(): loop = asyncio.get_event_loop() run() loop.run_until_complete(asyncio.wait(tasks))

if name == 'main': main()

``` 主要使用的庫是： - asyncio：協程，讓圖片下載不按順序，可以加快速度 - aiohttp：替代requests，用來異步發送請求。 - aiofiles：異步寫入文件內容

3、還有其它方法嗎？

還有多進程也可以試試，但是多進程更大的優勢體現在計算密集型的場景下。爬蟲獲取網絡請求屬於I/O密集型操作，多進程的優勢不大。

```python

-- coding:utf-8 --

import multiprocessing import os, time from multiprocessing import Pool

import requests

url = "http://www.python-office.com/api/img-cdn/test/spider/{}.jpg"

def down4img(url, output_name, type): """ 下載指定url的一張圖片，支持所有格式:jpg\png\gif .etc """ # print("子進程開始執行>>> pid={},ppid={},編號{}".format(os.getpid(), os.getppid(), output_name))

response = requests.get(url, stream=True)
with open('.'.join((output_name, type)), 'wb') as output_img:
    for chunk in response:
        output_img.write(chunk)
    output_img.close()
    print(f"下載成功，圖片名稱：{'.'.join((output_name, type))}")
# print("子進程終止>>> pid={},ppid={},編號{}".format(os.getpid(), os.getppid(), output_name))

def main(): print("主進程開始執行>>> pid={}".format(os.getpid())) ps = Pool(multiprocessing.cpu_count()) ps = Pool(3) for i in range(1, 18): # ps.apply(worker,args=(i,)) # 同步執行 output_name = str(i) type = 'jpg' ps.apply_async(down4img, args=(url.format(str(i)), output_name, type,)) # 異步執行 # ps.apply(down4img, args=(url.format(str(i)), output_name[0], type,)) # 同步執行

# 關閉進程池，停止接受其它進程
ps.close()
# 阻塞進程
ps.join()
print("主進程終止")

if name == 'main': main()

``` 主要使用的庫是： - multiprocessing：創建進程池

4、寫在最後

希望能給你帶來幫助。如果想系統的學習Python，歡迎大家掃碼加入我的知識星球👉Python讀者圈，我們一起學習提高~

我正在參與掘金技術社區創作者簽約計劃招募活動，點擊鏈接報名投稿。

Python爬蟲如何加速？異步、協程還是多進程？分享一個常用做法，萌新也能看懂