Linux 多线程与多进程选择取决于任务类型、资源边界和调度目标:Shell 适合轻量并发控制,Python 适合 I / O 密集或需共享状态的并行;运维关键在避免争抢、明确生命周期、统一日志与错误处理。

Linux 下多线程与多进程不是靠“选一个就好”,而是看任务类型、资源边界和调度目标——Shell 适合轻量并发控制,Python 适合逻辑复杂、I/ O 密集或需共享状态的并行调度;运维中真正关键的是避免资源争抢、明确生命周期、统一日志与错误处理。
Shell 里安全启动多进程:用 w ait+ 信号隔离防失控
Shell 本身不支持真正的线程,但可通过子 shell 后台运行多个进程。常见陷阱是父脚本退出后子进程变孤儿,或并发数失控拖垮系统。
- 用 red”>jobs -r 实时检查运行中后台任务,配合 wait %n 精确等待指定作业
- 限制并发数:用semaphore(来自 GNU parallel)或简单计数器 +trap 捕获 SIGUSR1 控制启停
- 每个子进程开头加set -o pipefail; exec >>/var/log/batch.log 2>&1,确保日志可追溯、错误不静默
- 避免用 & 直接丢进后台而不记录 PID——要用 $! 捕获并写入临时 PID 文件,便于后续 kill - 0 校验存活
Python 多进程不卡死:绕开 GIL、管好内存、别乱共享
Python 的 multiprocessing 模块能真正利用多核,但默认 pickle 序列化 + 子进程 fork 容易引发内存暴涨、句柄泄漏或 Worker 僵死。
- CPU 密集型任务用 Process 或Pool,别用Thread——GIL 让多线程几乎无效
- 传递 大数据 时,改用multiprocessing.shared_memory(3.8+)或numpy.memmap,避免 pickle 拷贝
- Worker 函数必须是模块级可导入的(不能在 if __name__ == ‘__main__’: 里定义),否则 spawn 方式启动失败
- 设置 maxtasksperchild=100 防止内存碎片累积;用 initializer 预加载大对象,避免每个 Worker 重复初始化
混合调度实战:Shell 做流程编排,Python 做核心计算
典型运维场景如日志分析流水线:Shell 负责定时拉取、分片、触发、汇总;Python 专注解析、统计、告警。两者通过文件、命名管道或 Redis 通信,解耦且易调试。
立即学习“Python 免费学习笔记(深入)”;
- Shell 侧用 find /data/logs -mmin -60 -name ‘*.log’ | xargs -P 4 -I {} python3 analyze.py –file {} –output /tmp/res_$$,其中-P 4 控并发,$$保临时路径隔离
- Python 侧接收参数后,用 concurrent.futures.ProcessPoolExecutor(max_workers=2) 进一步细分解析任务,避免单文件解析阻塞整条流水线
- 结果统一输出为 JSONL 格式,Shell 最后用 jq -s ‘reduce .[] as $item ({}; .count += 1 | .total += $item.value)’ /tmp/res_* 聚合
- 加一层 timeout 300 包裹 Python 调用,超时自动 kill,防止某个坏日志拖垮全局
监控与降级:别等 OOM 才发现调度崩了
并发调度不是启动就完事,得看得见、控得住、退得稳。
- 用 pidstat -u -r -p $(pgrep -f ‘analyze.py’) 2 每 2 秒采样 CPU/ 内存,配合 awk 触发阈值告警
- Python 中用 psutil.Process().memory_info().rss 在 Worker 内定期自检,超限主动 raise SystemExit,由主进程捕获重启
- Shell 脚本开头加 ulimit -u 512 -v $((1024*1024*2)) 限制用户进程数和 虚拟内存,防雪崩
- 准备降级开关:比如检测到负载>0.8,自动切到 –single-thread 模式串行执行,保证结果正确性优先于速度






























