Linux日志分析实战教程_GrepAwkSed日志处理技巧

7次阅读

Linux 日志分析靠 grep、awk、sed 三剑客:grep 快速定位关键行,awk 精准提取统计字段,sed 批量清洗标准化格式,三者串联可高效完成筛查、分析到归纳的全流程。

Linux 日志分析实战教程_GrepAwkSed 日志处理技巧

Linux 日志分析不靠猜,靠三把“快刀”:grep 快速定位、awk 精准切片、sed 批量修整。它们配合使用,能把杂乱的日志变成清晰的线索。

用 grep 锁定关键日志行

日志文件动辄上万行,第一件事是缩小范围。grep 是最直接的入口:

  • 查 ERROR 或 warning(忽略大小写):grep -i “error|warning” /var/log/syslog
  • 只看最近 10 分钟的错误(需日志含标准时间戳):grep “$(date -d ’10 minutes ago‘ ‘+%b %d %H:%M’)” /var/log/syslog | grep -i error
  • 排除无关信息(如健康检查):grep “500” access.log | grep -v “healthz”

用 awk 提取和统计核心字段

定位到目标行后,真正有价值的信息往往藏在某几列里——比如 IP、状态码、响应时间。awk 擅长按列处理:

  • 提取访问日志中的客户端 IP 和状态码:awk ‘{print $1, $9}’ access.log(默认空格分隔,$1 是 IP,$9 是状态码)
  • 统计出现最多的 5 个错误状态:awk ‘$9 ~ /^5/ {count[$9]++} END {for (c in count) print c, count[c] | “sort -k2nr | head -5”}’ access.log
  • 算平均响应时间(假设第 10 列是毫秒):awk ‘{sum += $10; n++} END {if(n>0) print “avg:”, sum/n}’ access.log

用 sed 清洗和标准化日志格式

原始日志常含干扰内容(如多余空格、调试标记、临时注释),sed 可批量清理或转换格式:

  • 删除所有空行和仅含空白符的行:sed ‘/^[[:space:]]*$/d’ app.log
  • 把 ISO 时间戳 2025-12-30T06:15:22+08:00 替换为易读格式:sed -E ‘s/([0-9]{4})-([0-9]{2})-([0-9]{2})T([0-9]{2}:[0-9]{2}:[0-9]{2}).*/1/2/3 4/’ app.log
  • 给每行加序号(调试时定位方便):sed ‘=’ app.log | sed ‘N;s/n/ /’

三剑客串联:一个真实分析流程

比如排查某次接口超时突增:先筛出超时请求,再提取路径与耗时,最后排序找 热点

  • grep “timeout” app.log | awk ‘$NF > 3000 {print $7, $NF}’ | sort -k2nr | head -10
    说明:$7 是请求路径,$NF 是最后一列(假设为耗时毫秒),筛选 >3000ms 的记录,按耗时倒序取前 10
  • 进一步去重统计高频慢路径:grep “timeout” app.log | awk ‘$NF > 3000 {print $7}’ | sort | uniq -c | sort -nr | head -5

不需要写脚本,一条命令链就能完成从筛查到归纳的全过程。熟练之后,5 分钟内定位问题根源很常见。

text=ZqhQzanResources