Linux eBPF 性能分析

SunnyFan大约 16 分钟约 4783 字

Linux eBPF 性能分析

简介

eBPF(Extended Berkeley Packet Filter)是 Linux 内核的一项革命性技术,它允许在内核空间安全地运行沙箱化程序,而无需修改内核源码或加载内核模块。eBPF 已经成为 Linux 系统可观测性、网络和安全领域的核心技术,被 Netflix、Facebook、Google 等公司广泛用于生产环境性能分析。

本文将系统性地介绍 eBPF 的核心概念、工具链(BCC/bpftrace)、性能分析方法论,以及如何在生产环境中使用 eBPF 进行 CPU、内存、I/O、网络等维度的深度性能分析。

特点

eBPF 的核心优势:

零侵入: 无需修改应用代码或重启服务
低开销: 内核态执行,开销极低(通常 < 5%)
安全沙箱: 经过验证器检查,不会导致内核崩溃
实时性: 实时捕获内核事件,毫秒级响应
全栈覆盖: 从系统调用到网络协议栈,覆盖内核全链路

实现

1. eBPF 技术架构

1.1 eBPF 程序类型与挂载点

eBPF 程序类型与对应挂载点:

程序类型                 挂载点                      典型用途
---------------------------------------------------------------------------
kprobe                  内核函数入口/返回            函数调用追踪
uprobe                  用户态函数入口/返回          应用层追踪
tracepoint              内核静态追踪点              系统事件追踪
perf_event              性能计数器                  CPU 性能分析
XDP                     网卡驱动层                  高性能包处理
TC                      流量控制层                  网络过滤/重定向
cgroup                  cgroup 钩子                 容器网络/安全
socket_filter           套接字                      包过滤
lsm                     Linux 安全模块              安全策略

1.2 eBPF 程序生命周期

编写 eBPF 程序(C/bpftrace)
         |
         v
    编译为 BPF 字节码 (clang -target bpf)
         |
         v
    加载到内核 (bpf() 系统调用)
         |
         v
    验证器验证 (确保安全性)
         |
         v
    JIT 编译为本机指令
         |
         v
    挂载到指定钩子点
         |
         v
    事件触发执行
         |
         v
    通过 Map 与用户态通信

2. BCC 工具集

2.1 CPU 性能分析

# ==== execsnoop - 追踪新进程创建 ====
# 显示系统中所有新创建的进程

# 基本用法
execsnoop

# 输出示例:
# PCOMM            PID    PPID   RET  ARGS
# nginx            12345  1230     0  /usr/sbin/nginx -c /etc/nginx/nginx.conf
# python           12346  1230     0  /usr/bin/python3 app.py

# 过滤特定进程名
execsnoop -n nginx

# 过滤特定 UID
execsnoop -u 1000

# 包含失败调用
execsnoop -x


# ==== opensnoop - 追踪文件打开 ====
# 显示所有 open() 系统调用

opensnoop

# 追踪特定进程
opensnoop -p 12345

# 追踪特定文件
opensnoop -f /etc/passwd

# 输出示例:
# PID    COMM       FD   ERR  PATH
# 12345  nginx       3    0   /etc/nginx/nginx.conf
# 12346  python      4    0   /app/config.json


# ==== profile - CPU 性能分析(采样) ====
# 类似 perf top,基于定时器采样调用栈

# 基本采样(默认 99Hz)
profile

# 指定采样频率
profile -F 49  # 49Hz 采样

# 仅采样特定 PID
profile -p 12345

# 按调用路径折叠输出(用于生成火焰图)
profile -f -F 99 > out.folded
# 然后用 FlameGraph 工具生成火焰图:
# flamegraph.pl out.folded > flame.svg

# 显示用户态和内核态调用栈
profile -a

# 仅显示内核态
profile -k

# 采样 30 秒
profile -F 99 -d 30


# ==== offcputime - 追踪 CPU 离开时间 ====
# 分析进程为何离开 CPU(阻塞/等待)

# 基本用法
offcputime

# 追踪特定 PID
offcputime -p 12345

# 显示调用栈
offcputime -s

# 追踪 10 秒
offcputime -d 10

# 输出示例:
# comm             pid     tid     offcpu_ns  offcpu_us  stack
# nginx            12345   12345   5000000    5000       futex_wait_queue_me
# python           12346   12346   3000000    3000       epoll_wait


# ==== runqlat - CPU 调度延迟分析 ====
# 分析任务等待 CPU 调度的延迟

# 基本用法(显示直方图)
runqlat

# 追踪特定 PID
runqlat -p 12345

# 按进程名过滤
runqlat -P

# 输出示例:
#      usecs           : count    distribution
#          0 -> 1      : 0        |                                      |
#          2 -> 3      : 15       |***                                   |
#          4 -> 7      : 120      |***********************              |
#          8 -> 15     : 450      |****************************************|
#         16 -> 31     : 200      |********************                  |
#         32 -> 63     : 50       |*****                                 |
#         64 -> 127    : 10       |**                                    |

2.2 内存分析

# ==== memleak - 内存泄漏检测 ====
# 追踪 malloc/free 调用,检测潜在的内存泄漏

# 追踪特定进程
memleak -p 12345

# 追踪所有进程的分配
memleak -a

# 指定分配器
memleak -p 12345 -s libc  # 使用 libc malloc
memleak -p 12345 -s tcmalloc  # 使用 tcmalloc

# 输出示例:
# Attaching to pid 12345, Ctrl+C to quit.
# [10:30:45] Top 10 stacks with outstanding allocations:
#   8192 bytes in 2 allocations from stack
#       handler_process+0x45  [myapp]
#       main_loop+0x120       [myapp]
#       __libc_start_main+0xf0 [libc]
#
#   4096 bytes in 1 allocations from stack
#       init_config+0x80      [myapp]
#       main+0x20             [myapp]


# ==== slabratetop - SLAB 分配速率 ====
# 显示内核 SLAB 分配器的分配速率

slabratetop

# 输出示例:
# KMALLOC           allocs    frees      bytes
# kmalloc-256       1200      1150      307200
# kmalloc-64        3500      3400      224000
# kmalloc-512       300       280       153600


# ==== oomkill - OOM Killer 追踪 ====
# 追踪 OOM Killer 事件

oomkill

# 输出示例:
# Triggered by PID 1234 ("python"), OOM kill of PID 5678 ("java")
#   1234: python, page allocation failures: 15432
#   5678: java, virtual memory: 8192 MB, RSS: 7890 MB


# ==== shmsys - 共享内存操作追踪 ====

# 追踪共享内存系统调用
shmsys

2.3 文件 I/O 分析

# ==== biosnoop - 块设备 I/O 追踪 ====
# 显示每个块设备 I/O 请求的详细信息

biosnoop

# 输出示例:
# TIME(s)     COMM           PID    DISK    T  SECTOR    BYTES   LAT(ms)
# 0.000       nginx          12345  sda     R  1048576   4096    0.35
# 0.001       postgres       12346  sda     W  2097152   8192    1.20
# 0.002       nginx          12345  sda     R  1048584   4096    0.28


# ==== biolatency - 块设备 I/O 延迟分布 ====
# 显示块设备 I/O 延迟直方图

biolatency

# 按设备分组
biolatency -D

# 按操作类型分组
biolatency -T

# 输出示例:
#      usecs           : count    distribution
#          0 -> 1      : 0        |                                      |
#          2 -> 3      : 5        |                                      |
#          4 -> 7      : 30       |***                                   |
#          8 -> 15     : 150      |****************                      |
#         16 -> 31     : 380      |****************************************|
#         32 -> 63     : 250      |**************************            |
#         64 -> 127    : 100      |**********                            |
#        128 -> 255    : 30       |***                                   |


# ==== biotop - 块设备 I/O Top ====
# 类似 top,但显示块设备 I/O

biotop

# 输出示例:
# PID    COMM       D  MAJ MIN  DISK    I/O  Kbytes  Avgms
# 12345  postgres   W  8   0    sda     250  10240   2.35
# 12346  nginx      R  8   0    sda     180  7200    0.85
# 12347  mysql      W  8   16   sdb     120  8400    3.10


# ==== filetop - 文件 I/O Top ====
# 显示文件读写 Top

filetop

# 按字节排序
filetop -s BYTES

# 指定 PID
filetop -p 12345

# 输出示例:
# TID    COMM       READS  WRITES R_Kbytes  W_Kbytes  T FILE
# 12345  postgres   500    200    2048      1024      R /var/lib/pgsql/data/base/16384/12345
# 12346  nginx      1000   50     4096      200       R /var/www/html/index.html


# ==== ext4slower - 慢文件操作追踪 ====
# 追踪 ext4 文件系统中超过阈值的慢操作

# 默认阈值 10ms
ext4slower

# 自定义阈值
ext4slower 20  # 20ms

# 输出示例:
# COMM           PID    T bytes  off_kbs   LAT(ms)  FILENAME
# postgres       12346  W 8192   1024.00   25.30    base/16384/12345
# nginx          12345  R 4096   512.00    15.20    index.html

2.4 网络分析

# ==== tcpconnect - TCP 连接追踪 ====
# 追踪所有主动发起的 TCP 连接

tcpconnect

# 按进程名过滤
tcpconnect -n nginx

# 按端口过滤
tcpconnect -P 80,443

# 输出示例:
# PID    COMM       IP  SADDR          DADDR          DPORT
# 12345  nginx      4   10.0.0.1       10.0.0.2       80
# 12346  python     4   10.0.0.1       172.16.0.1     443
# 12347  java       6   ::1            ::1            8080


# ==== tcpaccept - TCP 被动连接追踪 ====
# 追踪所有被接受的 TCP 连接

tcpaccept

# 输出示例:
# PID    COMM       IP  LADDR          LPORT  RADDR          RPORT
# 12345  nginx      4   0.0.0.0        80     10.0.1.100     54321
# 12345  nginx      4   0.0.0.0        443    10.0.1.101     54322


# ==== tcplife - TCP 连接生命周期 ====
# 显示 TCP 连接的完整生命周期(建立到关闭)

tcplife

# 输出示例:
# PID   COMM       LADDR          LPORT  RADDR          RPORT  TX_KB  RX_KB  MS
# 12345 nginx      10.0.0.1       80     10.0.1.100     54321  128    45     1500
# 12346 python     10.0.0.1       443    172.16.0.1     54322  256    120    2500


# ==== tcpretrans - TCP 重传追踪 ====
# 追踪 TCP 重传事件(网络质量差的重要指标)

tcpretrans

# 输出示例:
# TIME     PID    LADDR          LPORT  RADDR          RPORT  STATE
# 10:30:45 12345  10.0.0.1       80     10.0.1.100     54321  ESTABLISHED
# 10:30:46 12346  10.0.0.1       443    172.16.0.1     54322  ESTABLISHED


# ==== socktop - Socket I/O Top ====
# 显示 Socket 读写 Top

socktop

# 仅显示 TCP
socktop -P tcp

# 按PID过滤
socktop -p 12345

# 输出示例:
# PID    COMM       LADDR          LPORT  RADDR          RPORT  PROTO  TX_KB  RX_KB
# 12345  nginx      10.0.0.1       80     10.0.1.100     54321  TCP    1024   512
# 12346  python     10.0.0.1       443    172.16.0.1     54322  TCP    2048   1024


# ==== softirqs - 软中断统计 ====
# 显示软中断的耗时分布

softirqs

# 按次数统计
softirqs -c

# 输出示例:
# SOFTIRQ          TOTAL/s
# net_rx           125000
# net_tx           85000
# timer            45000
# sched            30000
# block            15000

3. bpftrace 高级追踪

3.1 bpftrace 基础语法

# ==== bpftrace 语法结构 ====

# 基本格式:
# probe[,probe] /filter/ { action }

# 1. kprobe - 内核函数追踪
# 追踪 do_sys_open 系统调用
bpftrace -e 'kprobe:do_sys_open { printf("open: %s\n", str(arg1)); }'

# 追踪函数返回值(kretprobe)
bpftrace -e 'kretprobe:do_sys_open { printf("ret: %d\n", retval); }'

# 2. tracepoint - 静态追踪点(更稳定)
bpftrace -e 'tracepoint:syscalls:sys_enter_openat {
    printf("%s -> %s\n", comm, str(args->filename));
}'

# 3. uprobe - 用户态函数追踪
# 追踪 Nginx 的请求处理
bpftrace -e 'uprobe:/usr/sbin/nginx:ngx_http_process_request {
    printf("nginx request from PID %d\n", pid);
}'

# 4. 带过滤条件
bpftrace -e 'kprobe:do_sys_open /pid == 12345/ {
    printf("PID 12345 open: %s\n", str(arg1));
}'


# ==== 内置变量 ====
# pid     - 进程 ID
# tid     - 线程 ID
# uid     - 用户 ID
# gid     - 组 ID
# comm    - 进程名
# nsecs   - 纳秒时间戳
# elapsed - 纳秒运行时间
# cpu     - CPU 编号
# curtask - 当前 task_struct
# rand    - 随机数
# arg0-argN   - 函数参数
# retval       - 返回值
# func         - 函数名
# kstack       - 内核调用栈
# ustack       - 用户态调用栈


# ==== 内置函数 ====
# printf(fmt, ...)  - 格式化输出
# time(fmt)         - 输出时间
# join(arr, delim)  - 合并字符串数组
# str(ptr, len)     - 读取内核字符串
# buf(ptr, len)     - 读取缓冲区
# kaddr(name)       - 读取内核地址
# uaddr(name)       - 读取用户地址
# reg(name)         - 读取寄存器
# kstack(depth)     - 内核调用栈
# ustack(depth)     - 用户调用栈
# signal(sig)       - 发送信号
# system(cmd)       - 执行命令
# exit()            - 退出

3.2 实用 bpftrace 脚本

# ==== 统计系统调用频率 ====
bpftrace -e '
tracepoint:syscalls:sys_enter_* {
    @syscalls[probe] = count();
}
interval:s:5 {
    print(@syscalls);
    clear(@syscalls);
}
'

# ==== 按进程统计 I/O 大小 ====
bpftrace -e '
kprobe:vfs_read {
    @read_bytes[comm] = sum(arg2);
}
kprobe:vfs_write {
    @write_bytes[comm] = sum(arg2);
}
interval:s:10 {
    printf("=== Read ===\n"); print(@read_bytes); clear(@read_bytes);
    printf("=== Write ===\n"); print(@write_bytes); clear(@write_bytes);
}
'

# ==== 追踪进程上下文切换 ====
bpftrace -e '
tracepoint:sched:sched_switch {
    @switch_from[comm] = count();
    @switch_to[args->next_comm] = count();
}
'

# ==== 统计 TCP 连接延迟 ====
bpftrace -e '
kprobe:tcp_v4_connect {
    @connect_start[tid] = nsecs;
}
kretprobe:tcp_v4_connect /@connect_start[tid]/ {
    @connect_ns[comm] = hist(nsecs - @connect_start[tid]);
    delete(@connect_start, tid);
}
'

# ==== 追踪锁竞争 ====
bpftrace -e '
kprobe:mutex_lock /comm == "mysqld"/ {
    @lock_start[tid] = nsecs;
}
kprobe:mutex_unlock /@lock_start[tid]/ {
    @lock_ns[comm] = hist(nsecs - @lock_start[tid]);
    delete(@lock_start, tid);
}
'

# ==== 追踪页面缺失 ====
bpftrace -e '
kprobe:handle_mm_fault {
    @pf[comm] = count();
}
interval:s:5 {
    print(@pf);
    clear(@pf);
}
'

# ==== 追踪特定内核函数的调用栈 ====
bpftrace -e '
kprobe:tcp_drop {
    printf("TCP Drop: %s\n", kstack);
}
'

# ==== 磁盘 I/O 延迟热力图 ====
bpftrace -e '
kprobe:blk_mq_start_request {
    @start[arg0] = nsecs;
}
kprobe:blk_mq_complete_request /@start[arg0]/ {
    @io_latency = hist(nsecs - @start[arg0]);
    delete(@start, arg0);
}
interval:s:30 {
    print(@io_latency);
    clear(@io_latency);
}
'

# ==== 追踪 OpenSSL 读取数据 ====
bpftrace -e '
uprobe:/usr/lib64/libssl.so.1.1:SSL_read /comm == "nginx"/ {
    printf("nginx SSL read, PID: %d\n", pid);
}
uprobe:/usr/lib64/libssl.so.1.1:SSL_write /comm == "nginx"/ {
    printf("nginx SSL write, PID: %d, size: %d\n", pid, arg2);
}
'

4. 火焰图生成

# ==== CPU 火焰图 ====

# 方法1: 使用 BCC profile 工具
profile -F 99 -f -d 30 > out.folded
# 下载 FlameGraph 工具
git clone https://github.com/brendangregg/FlameGraph
cd FlameGraph
./flamegraph.pl ../out.folded > cpu_flame.svg

# 方法2: 使用 perf
perf record -F 99 -g -- sleep 30
perf script | ./FlameGraph/stackcollapse-perf.pl | ./FlameGraph/flamegraph.pl > cpu_flame.svg

# 方法3: 针对特定进程
profile -F 99 -f -p 12345 -d 60 > app.folded
./flamegraph.pl app.folded > app_cpu_flame.svg

# ==== Off-CPU 火焰图(分析阻塞) ====
offcputime -f -d 30 > offcpu.folded
./FlameGraph/flamegraph.pl --title "Off-CPU" --colors=io offcpu.folded > offcpu_flame.svg

# ==== 内存分配火焰图 ====
bpftrace -e '
uprobe:/usr/lib64/libc.so.6:malloc {
    @stacks[ustack] = sum(arg0);
}
interval:s:60 {
    print(@stacks);
    clear(@stacks);
}
' -f > malloc.folded
./FlameGraph/flamegraph.pl --title "Memory Allocation" malloc.folded > mem_flame.svg

# ==== 差异火焰图(对比前后) ====
# 采样基准
profile -F 99 -f -d 30 > before.folded
# 执行变更
profile -F 99 -f -d 30 > after.folded
# 生成差异火焰图
./FlameGraph/difffolded.pl before.folded after.folded | ./FlameGraph/flamegraph.pl --title "Diff" > diff.svg

5. 系统调用追踪

# ==== syscount - 系统调用统计 ====

# 按系统调用类型统计
syscount

# 按进程统计
syscount -p 12345

# 按进程名统计
syscount -n nginx

# 显示延迟
syscount -L

# 输出示例:
# SYSCALL           COUNT    TIME (ms)
# read              15432    1250.35
# write             8920     850.20
# openat            3200     420.15
# futex             2800     1520.80
# mmap              1500     310.45


# ==== killsnoop - 信号追踪 ====
# 追踪 kill 系统调用

killsnoop

# 输出示例:
# TIME      PID    COMM       SIG  TPID   RESULT
# 10:30:45  12345  bash       9    12346  0
# 10:30:46  12350  python     15   12351  0


# ==== statsnoop - 统计系统调用追踪 ====
# 追踪 stat/lstat/access 等文件统计调用

statsnoop

# 输出示例:
# PID    COMM       FD   ERR  PATH
# 12345  nginx       3    0   /etc/nginx/nginx.conf
# 12346  find        4    0   /var/log


# ==== 综合系统调用延迟分析 ====
bpftrace -e '
tracepoint:syscalls:sys_enter_read {
    @read_start[tid] = nsecs;
}
tracepoint:syscalls:sys_exit_read /@read_start[tid]/ {
    @read_us[comm] = hist((nsecs - @read_start[tid]) / 1000);
    delete(@read_start, tid);
}
tracepoint:syscalls:sys_enter_write {
    @write_start[tid] = nsecs;
}
tracepoint:syscalls:sys_exit_write /@write_start[tid]/ {
    @write_us[comm] = hist((nsecs - @write_start[tid]) / 1000);
    delete(@write_start, tid);
}
interval:s:30 {
    printf("=== READ latency (us) ===\n"); print(@read_us); clear(@read_us);
    printf("=== WRITE latency (us) ===\n"); print(@write_us); clear(@write_us);
}
'

6. 容器性能监控

# ==== 容器感知的 eBPF 追踪 ====

# 查找容器的 cgroup ID
# cgroup v2:
cat /sys/fs/cgroup/system.slice/docker-<container_id>.scope/cgroup.procs

# ==== 在容器环境中使用 BCC ====

# 追踪特定 cgroup 中的进程
bpftrace -e '
kprobe:tcp_v4_connect /cgroup == "/sys/fs/cgroup/system.slice/docker-abc123.scope"/ {
    printf("container connect: %s -> %s:%d\n",
        ntop(args->saddr), ntop(args->daddr), args->dport);
}
'

# ==== cgroup I/O 统计 ====
bpftrace -e '
kprobe:blk_account_io_start {
    @cg_ios[cgroup] = count();
}
interval:s:10 {
    print(@cg_ios);
    clear(@cg_ios);
}
'

# ==== 容器网络流量统计 ====
bpftrace -e '
kprobe:tcp_sendmsg {
    @send_bytes[cgroup, comm] = sum(arg2);
}
kprobe:tcp_recvmsg {
    @recv_bytes[cgroup, comm] = sum(args->len);
}
interval:s:10 {
    printf("=== Container Network ===\n");
    print(@send_bytes); clear(@send_bytes);
    print(@recv_bytes); clear(@recv_bytes);
}
'

7. 自定义 eBPF 程序(BCC Python 接口)

#!/usr/bin/env python3
"""
自定义 eBPF 程序 - HTTP 请求延迟分析
使用 BCC Python 接口编写
"""

from bcc import BPF
import time

# eBPF C 程序
bpf_text = """
#include <uapi/linux/ptrace.h>
#include <net/sock.h>
#include <bcc/proto.h>

// 存储请求开始时间
BPF_HASH(start, u64);

// 直方图: 请求延迟分布
BPF_HISTOGRAM(dist);

// 统计计数
BPF_ARRAY(stats, u64, 3);  // [total, read, write]

int trace_request_entry(struct pt_regs *ctx) {
    u64 pid_tgid = bpf_get_current_pid_tgid();
    u64 ts = bpf_ktime_get_ns();
    start.update(&pid_tgid, &ts);

    // 增加总计数
    u64 key = 0;
    u64 *count = stats.lookup(&key);
    if (count) {
        (*count)++;
    }

    return 0;
}

int trace_request_return(struct pt_regs *ctx) {
    u64 pid_tgid = bpf_get_current_pid_tgid();
    u64 *tsp = start.lookup(&pid_tgid);

    if (tsp == 0) {
        return 0;   // 未找到开始时间
    }

    // 计算延迟(微秒)
    u64 delta = (bpf_ktime_get_ns() - *tsp) / 1000;

    // 记录到直方图
    dist.increment(bpf_log2l(delta));

    start.delete(&pid_tgid);
    return 0;
}
"""

# 加载 eBPF 程序
b = BPF(text=bpf_text)

# 挂载到 Nginx 请求处理函数(示例)
# 替换为你的应用的具体函数
b.attach_uprobe(
    name="/usr/sbin/nginx",
    sym="ngx_http_process_request",
    fn_name="trace_request_entry",
)
b.attach_uretprobe(
    name="/usr/sbin/nginx",
    sym="ngx_http_process_request",
    fn_name="trace_request_return",
)

print("追踪 HTTP 请求延迟... 按 Ctrl+C 结束")

# 定期打印统计
try:
    while True:
        time.sleep(5)

        # 打印总计数
        total = b["stats"][0].value
        print(f"\n总请求数: {total}")

except KeyboardInterrupt:
    print("\n\n=== 延迟分布(微秒) ===")
    b["dist"].print_log2_hist("延迟(us)")

8. 生产环境可观测性

# ==== 使用 bpftrace 进行生产环境持续监控 ====

# CPU 调度延迟监控
bpftrace -e '
tracepoint:sched:sched_switch {
    @ctx_switch[comm] = count();
}
interval:s:60 {
    printf("=== 上下文切换统计 ===\n");
    print(@ctx_switch);
    clear(@ctx_switch);
}
' > /var/log/ebpf/ctx_switch.log 2>&1 &

# TCP 重传统计
bpftrace -e '
kprobe:tcp_retransmit_skb {
    @retransmits[ntop(args->saddr), ntop(args->daddr), args->dport] = count();
}
interval:s:60 {
    printf("=== TCP 重传统计 ===\n");
    print(@retransmits);
    clear(@retransmits);
}
' > /var/log/ebpf/tcp_retrans.log 2>&1 &

# 磁盘 I/O 延迟监控
bpftrace -e '
kprobe:blk_mq_start_request { @io_start[arg0] = nsecs; }
kprobe:blk_mq_complete_request /@io_start[arg0]/ {
    @io_us = hist((nsecs - @io_start[arg0]) / 1000);
    delete(@io_start, arg0);
}
interval:s:300 {
    printf("=== 磁盘 I/O 延迟 ===\n");
    print(@io_us);
    clear(@io_us);
}
' > /var/log/ebpf/disk_io.log 2>&1 &


# ==== 与 Prometheus 集成 ====
# 使用 bcc-exporter 暴露 eBPF 指标
# pip install bcc-exporter

# 或者使用自定义脚本将 bpftrace 输出转为 Prometheus 指标
cat << 'SCRIPT' > /usr/local/bin/ebpf_exporter.sh
#!/bin/bash
# 将 eBPF 统计转为 Prometheus 格式

echo "# HELP ebpf_tcp_connect_total Total TCP connections initiated"
echo "# TYPE ebpf_tcp_connect_total counter"

bpftrace -e '
kprobe:tcp_v4_connect {
    @connects[ntop(args->saddr)] = count();
}
interval:s:10 {
    printf("ebpf_tcp_connect_total{src=\"%s\"} %d\n", @connects);
    clear(@connects);
}
'
SCRIPT

9. 与传统工具对比

传统工具 vs eBPF 工具对比:

分析目标          传统工具              eBPF 工具              优势
---------------------------------------------------------------------------
CPU 性能          top, vmstat           profile, offcputime    调用栈级别的分析
进程创建          ps                   execsnoop             实时追踪,不遗漏短命进程
文件打开          lsof                 opensnoop             实时追踪,含错误信息
磁盘延迟          iostat               biolatency            延迟分布直方图
TCP 连接          netstat, ss          tcpconnect            实时追踪新连接
TCP 重传          netstat -s           tcpretrans            逐连接追踪
内存泄漏          valgrind             memleak               生产可用,低开销
系统调用          strace               syscount              全系统统计,可聚合
网络包            tcpdump              tcplife               连接级别统计

eBPF 的独特优势:
1. 开销极低: 生产环境可以持续运行
2. 内核视角: 直接在内核态收集数据
3. 不遗漏: 捕获所有事件,包括短命进程
4. 可编程: 可以自定义分析逻辑

优点

极低开销: 生产环境可持续运行,通常开销 < 5%
零侵入: 无需修改应用代码或配置
内核级洞察: 直接在内核态采集数据,信息完整
实时分析: 毫秒级响应,实时发现性能问题
可编程: BCC 和 bpftrace 提供灵活的编程接口

缺点

内核版本依赖: 部分功能需要较新的内核版本(4.10+)
学习曲线: 需要理解内核原理和 eBPF 编程模型
权限要求: 需要 root 或 CAP_BPF/CAP_SYS_ADMIN 权限
稳定性风险: 旧版本内核的 BPF 验证器可能有 bug
容器化挑战: 容器环境中使用需要额外配置

性能注意事项

采样频率: 使用 49Hz 或 99Hz 而非 100Hz(避免与系统时钟同步)
过滤条件: 使用过滤条件减少不必要的事件处理
Map 大小: 合理设置 BPF Map 大小,避免内存浪费
输出频率: 控制打印频率,避免输出成为瓶颈
挂载点选择: 优先使用 tracepoint 而非 kprobe(tracepoint 更稳定)

总结

eBPF 是 Linux 性能分析的革命性技术:

工具链: BCC 提供 70+ 开箱即用工具,bpftrace 支持自定义脚本
分析维度: 覆盖 CPU、内存、I/O、网络全栈性能分析
火焰图: 结合火焰图直观展示性能热点
生产就绪: 低开销特性使其适合生产环境持续监控
学习路径: 从 BCC 工具入手,逐步学习 bpftrace 和自定义 eBPF 程序

关键知识点

概念	说明
eBPF	Extended BPF,在内核中安全运行沙箱化程序
BCC	BPF Compiler Collection,eBPF 工具集
bpftrace	eBPF 高级追踪语言
kprobe	内核函数动态追踪
tracepoint	内核静态追踪点,接口稳定
XDP	eXpress Data Path,高性能网络处理
火焰图	调用栈可视化工具,快速定位热点

常见误区

误区: eBPF 能完全替代传统工具
- 传统工具(top/iostat/netstat)仍然有价值,用于快速概览
- 解决: 传统工具做概览,eBPF 做深度分析
误区: eBPF 没有性能影响
- 高频事件(如每个网络包)的追踪仍有开销
- 解决: 使用采样、过滤、聚合降低开销
误区: 所有内核都支持 eBPF
- 部分高级功能需要 5.x+ 内核
- 解决: 检查内核版本,使用对应版本支持的功能
误区: eBPF 只能用于调试
- eBPF 已广泛用于生产监控(Cilium/Falco等)
- 解决: 探索 eBPF 在安全、网络等场景的应用

进阶路线

入门: 学习 BCC 工具集(execsnoop/biolatency/tcpconnect)
进阶: 掌握 bpftrace 语法,编写自定义追踪脚本
高级: 使用 BCC Python 接口开发自定义 eBPF 工具
专家: 开发 XDP/TC 网络程序,构建 eBPF 可观测性平台

适用场景

生产环境性能问题排查
持续性能监控和告警
网络流量分析和安全监控
容器和 Kubernetes 可观测性
I/O 延迟分析和存储优化
系统调用安全审计

落地建议

先学 BCC: BCC 工具集覆盖 90% 的常见分析场景
建立脚本库: 将常用的 bpftrace 脚本整理成团队工具库
集成监控: 将 eBPF 指标接入现有监控平台(Prometheus/Grafana)
权限管理: 为运维团队配置 eBPF 所需的最小权限
定期巡检: 将 eBPF 分析纳入日常巡检流程

排错清单

问题	可能原因	解决方案
BCC 工具无法运行	内核版本太低或未安装 BCC	升级内核,安装 bcc-tools
bpftrace 权限错误	非 root 且无 CAP_BPF	使用 root 或配置 capabilities
探针挂载失败	内核函数名变更	使用 tracepoint 替代 kprobe
输出为空	过滤条件太严格或无目标事件	放宽过滤条件,确认目标事件
系统变慢	追踪开销过大	降低采样频率,添加过滤条件
Map 空间不足	事件量过大	增大 Map 大小或缩短统计间隔

复盘问题

使用 eBPF 发现了哪些之前传统工具无法发现的性能问题?
eBPF 工具在生产环境的运行开销是多少?
最常用的 eBPF 工具是哪些?覆盖了哪些分析场景?
TCP 重传率是多少?主要集中在哪些连接?
磁盘 I/O 的 P99 延迟是多少?是否超过 SLA?