听说Python多线程和多进程有鸡肋？一起聊聊…

本文介绍: Py th on 的并发编程有多种实现方式，包括多线程、多进程和协程等。其中，多线程通常适用于 I/O 密集型的任务，但由于 GIL 的存在，不能真正发挥出多核处理器的性能；而多进程则可以真正发挥出多核处理器的性能，但进程之间的通信和数据共享比较麻烦，每个进程的启动和销毁也会涉及到一定的开销。协程则是一种轻量级的并发处理方式，适用于 I/O 密集型任务和部分计算密集型任务，可以通过 async/await 关键字和 async io 库来实现。

对于多线程：

Py t h on 的多线程库 threading 在某些情况下确实是鸡肋的，这是因为 Py t h on 的全局解释器锁（Glob al In t e r pre t e r Loc k, GIL）导致了多线程的并发性能不能真正发挥出来。简单来说，这意味着在任何给定时刻只有一个线程能够真正地运行 Py t h on 代码，这就限制了多线程的性能。

然而，对于一些特定类型的任务，比如 I/O 密集型的任务，多线程还是可以带来性能提升的。这是因为 I/O 操作通常会导致线程阻塞，让其他线程得以运行。此外，在 Py t h on3 中，对于一些特殊情况，比如使用 async io 库，也可以通过协程实现并发执行，从而规避 GIL 的限制。

对于多进程：

Py t h on 的多进程库 multiprocessing 是可以真正发挥出多核处理器的性能的，因为每个进程都有自己的解释器和 GIL。这意味着每个进程可以独立地运行 Py t h o n 代码，从而实现真正的并行处理。

import threading

counter = 0

def worker():
    global counter
    for i in range(10000000):
        counter += 1

threads = []
for i in range(4):
    t = threading.Thread(target=worker)
    threads.append(t)

for t in threads:
    t.start()

for t in threads:
    t.join()

print(counter)
复制代码

import threading
import requests

urls = [    "https://www.google.com",    "https://www.baidu.com",    "https://www.github.com",    "https://www.python.org"]

def worker(url):
    res = requests.get(url)
    print(f"{url} : {len(res.content)} bytes")

threads = []
for url in urls:
    t = threading.Thread(target=worker, args=(url,))
    threads.append(t)

for t in threads:
    t.start()

for t in threads:
    t.join()
复制代码

import asyncio
import aiohttp

urls = [
    "https://www.google.com",
    "https://www.baidu.com",
    "https://www.github.com",
    "https://www.python.org"
]

async def worker(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            content = await response.read()
            print(f"{url} : {len(content)} bytes")

async def main():
    tasks = []
    for url in urls:
        task = asyncio.create_task(worker(url))
        tasks.append(task)
    await asyncio.gather(*tasks)

asyncio.run(main())
复制代码

import multiprocessing

def worker(start, end):
    for i in range(start, end):
        print(i * i)

if __name__ == '__main__':
    processes = []
    num_processes = 4
    num_tasks = 20

    for i in range(num_processes):
        start = i * num_tasks // num_processes
        end = (i + 1) * num_tasks // num_processes
        p = multiprocessing.Process(target=worker, args=(start, end))
        processes.append(p)

    for p in processes:
        p.start()

    for p in processes:
        p.join()
复制代码

import multiprocessing

def worker(num):
    result = num * num
    print(result)

if __name__ == '__main__':
    processes = []
    num_processes = 4

    for i in range(num_processes):
        p = multiprocessing.Process(target=worker, args=(i,))
        processes.append(p)

    for p in processes:
        p.start()

    for p in processes:
        p.join()
复制代码