边缘 AI 与模型部署

SunnyFan大约 12 分钟约 3555 字

边缘 AI 与模型部署

简介

边缘 AI 将模型部署到终端设备（手机、IoT、嵌入式），实现低延迟、离线推理。理解模型量化、ONNX Runtime、TensorRT 和设备端部署策略，有助于构建高效的边缘 AI 应用。

特点

1.模型量化 — INT8/INT4 量化技术
2.ONNX Runtime — 跨平台推理引擎
3.模型压缩 — 剪枝与知识蒸馏
4.边缘部署 — 移动端与嵌入式
5.性能优化 — 推理加速策略

模型量化

量化技术

import torch
import torch.nn as nn

# 量化类型：
# FP32 → FP16（半精度，2x 压缩）
# FP32 → INT8（8位整数，4x 压缩）
# FP32 → INT4（4位整数，8x 压缩）

# 1. PyTorch 动态量化（最简单）
def dynamic_quantization(model):
    """动态量化 — 权重提前量化，激活值运行时量化"""
    quantized_model = torch.quantization.quantize_dynamic(
        model,
        {nn.Linear},  # 只量化全连接层
        dtype=torch.qint8
    )
    return quantized_model

# 2. 静态量化（更高效，需要校准数据）
def static_quantization(model, calibration_dataloader):
    """静态量化 — 权重和激活值都提前量化"""
    model.eval()

    # 设置量化配置
    model.qconfig = torch.quantization.get_default_qconfig('x86')

    # 插入观察器
    torch.quantization.prepare(model, inplace=True)

    # 校准（用代表性数据统计激活值范围）
    with torch.no_grad():
        for batch in calibration_dataloader:
            model(batch)

    # 转换为量化模型
    torch.quantization.convert(model, inplace=True)

    return model

# 3. 量化感知训练（QAT，精度最高）
def quantization_aware_training(model, train_dataloader, epochs=3):
    """量化感知训练 — 训练时模拟量化误差"""
    model.train()

    # 设置 QAT 配置
    model.qconfig = torch.quantization.get_default_qat_qconfig('x86')

    # 插入伪量化节点
    torch.quantization.prepare_qat(model, inplace=True)

    optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)

    for epoch in range(epochs):
        for batch in train_dataloader:
            output = model(batch)
            loss = compute_loss(output)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

    # 转换为真正的量化模型
    model.eval()
    torch.quantization.convert(model, inplace=True)

    return model

# 4. GPTQ 4-bit 量化（用于 LLM）
def gptq_quantization(model_path, output_path, calibration_data):
    """GPTQ 量化 — 后训练 4-bit 量化"""
    from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig

    quantize_config = BaseQuantizeConfig(
        bits=4,                  # 4-bit 量化
        group_size=128,          # 分组大小
        desc_act=True,           # 按重要性排序
        damp_percent=0.01        # 阻尼系数
    )

    model = AutoGPTQForCausalLM.from_pretrained(model_path, quantize_config)
    model.quantize(calibration_data)
    model.save_quantized(output_path)

ONNX Runtime 推理

跨平台部署

import onnxruntime as ort
import numpy as np

class ONNXInferenceEngine:
    """ONNX Runtime 推理引擎"""

    def __init__(self, model_path, use_gpu=True):
        # 会话选项
        sess_options = ort.SessionOptions()
        sess_options.graph_optimization_level = ort.GraphOptimizationLevel.ORT_ENABLE_ALL
        sess_options.intra_op_num_threads = 4
        sess_options.inter_op_num_threads = 1

        # 执行提供者
        providers = []
        if use_gpu:
            providers.append(('CUDAExecutionProvider', {
                'device_id': 0,
                'arena_extend_strategy': 'kNextPowerOfTwo',
                'gpu_mem_limit': 2 * 1024 * 1024 * 1024,  # 2GB
                'cudnn_conv_algo_search': 'EXHAUSTIVE'
            }))
        providers.append('CPUExecutionProvider')

        self.session = ort.InferenceSession(model_path, sess_options, providers=providers)

        # 获取输入输出信息
        self.input_info = [(inp.name, inp.shape, inp.type) for inp in self.session.get_inputs()]
        self.output_info = [(out.name, out.shape) for out in self.session.get_outputs()]

    def predict(self, inputs):
        """推理"""
        # 准备输入
        feed = {}
        for name, shape, dtype in self.input_info:
            feed[name] = inputs[name].astype(np.float32)

        # 运行推理
        outputs = self.session.run(None, feed)
        return {name: output for name, output in zip(
            [o.name for o in self.session.get_outputs()], outputs)}

    def benchmark(self, inputs, num_iterations=100):
        """性能基准测试"""
        import time

        # 预热
        for _ in range(10):
            self.predict(inputs)

        # 测量
        latencies = []
        for _ in range(num_iterations):
            start = time.perf_counter()
            self.predict(inputs)
            latencies.append((time.perf_counter() - start) * 1000)

        return {
            "mean_ms": np.mean(latencies),
            "p50_ms": np.percentile(latencies, 50),
            "p95_ms": np.percentile(latencies, 95),
            "p99_ms": np.percentile(latencies, 99),
            "throughput": 1000 / np.mean(latencies)  # QPS
        }

# PyTorch 模型导出为 ONNX
def export_to_onnx(model, input_shape, output_path, opset_version=17):
    """导出 PyTorch 模型为 ONNX"""
    model.eval()
    dummy_input = torch.randn(*input_shape)

    torch.onnx.export(
        model,
        dummy_input,
        output_path,
        opset_version=opset_version,
        input_names=["input"],
        output_names=["output"],
        dynamic_axes={
            "input": {0: "batch_size"},
            "output": {0: "batch_size"}
        }
    )

    # 验证
    onnx_model = onnx.load(output_path)
    onnx.checker.check_model(onnx_model)
    print(f"ONNX 模型已导出: {output_path}")

模型压缩

剪枝与蒸馏

# 1. 结构化剪枝
class StructuredPruner:
    """结构化剪枝 — 移除整个通道"""

    def __init__(self, model, pruning_ratio=0.3):
        self.model = model
        self.pruning_ratio = pruning_ratio

    def compute_importance(self, module):
        """计算权重重要性（L1 范数）"""
        if isinstance(module, nn.Conv2d):
            importance = module.weight.abs().sum(dim=(1, 2, 3))
            return importance
        return None

    def prune_layer(self, module, indices_to_keep):
        """剪枝单个层"""
        if isinstance(module, nn.Conv2d):
            module.weight = nn.Parameter(module.weight[indices_to_keep])
            if module.bias is not None:
                module.bias = nn.Parameter(module.bias[indices_to_keep])
            module.out_channels = len(indices_to_keep)

    def prune_model(self):
        """剪枝整个模型"""
        for name, module in self.model.named_modules():
            importance = self.compute_importance(module)
            if importance is not None:
                num_to_keep = int(len(importance) * (1 - self.pruning_ratio))
                _, indices = torch.sort(importance)
                indices_to_keep = sorted(indices[-num_to_keep:].tolist())
                self.prune_layer(module, indices_to_keep)

        return self.model


# 2. 知识蒸馏
class KnowledgeDistillation:
    """知识蒸馏 — 用大模型（教师）指导小模型（学生）"""

    def __init__(self, teacher, student, temperature=4.0, alpha=0.7):
        self.teacher = teacher
        self.student = student
        self.temperature = temperature
        self.alpha = alpha  # 蒸馏损失权重

        # 冻结教师模型
        for param in self.teacher.parameters():
            param.requires_grad = False

    def distillation_loss(self, student_logits, teacher_logits, labels):
        """蒸馏损失 = α * KL散度 + (1-α) * 交叉熵"""
        # 软标签 KL 散度
        soft_targets = F.log_softmax(student_logits / self.temperature, dim=-1)
        soft_labels = F.softmax(teacher_logits / self.temperature, dim=-1)
        kd_loss = F.kl_div(soft_targets, soft_labels, reduction='batchmean')
        kd_loss *= (self.temperature ** 2)

        # 硬标签交叉熵
        ce_loss = F.cross_entropy(student_logits, labels)

        return self.alpha * kd_loss + (1 - self.alpha) * ce_loss

    def train_step(self, optimizer, inputs, labels):
        """一步蒸馏训练"""
        # 教师推理
        with torch.no_grad():
            teacher_outputs = self.teacher(inputs)

        # 学生推理
        student_outputs = self.student(inputs)

        # 计算损失
        loss = self.distillation_loss(
            student_outputs, teacher_outputs, labels
        )

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        return loss.item()

边缘设备部署

移动端部署策略

# 边缘设备部署选项：
# 1. ONNX Runtime Mobile — 跨平台（Android/iOS/嵌入式）
# 2. TensorFlow Lite — Google 生态
# 3. Core ML — Apple 设备
# 4. NCNN — 腾讯，优化的移动端推理

class EdgeDeploymentManager:
    """边缘部署管理器"""

    def __init__(self, model_path, target_device="android"):
        self.model_path = model_path
        self.target_device = target_device

    def optimize_for_device(self):
        """针对设备优化"""
        if self.target_device == "android":
            return self._optimize_android()
        elif self.target_device == "ios":
            return self._optimize_ios()
        elif self.target_device == "raspberry_pi":
            return self._optimize_raspberrypi()

    def _optimize_android(self):
        """Android 优化"""
        # ONNX → TFLite 转换
        # 1. 量化为 INT8
        # 2. 优化为 NNAPI 兼容
        # 3. 评估 GPU Delegate 性能
        return {
            "format": "tflite",
            "quantization": "int8",
            "optimizations": ["nnapi", "gpu_delegate"]
        }

    def _optimize_raspberrypi(self):
        """树莓派优化"""
        # ARM CPU 优化
        return {
            "format": "onnx",
            "quantization": "int8",
            "optimizations": ["arm_neon", "thread_affinity"],
            "num_threads": 4
        }

    def estimate_performance(self, model_size_mb, device_specs):
        """估算推理性能"""
        flops = model_size_mb * 1e6  # 估算 FLOPS
        device_tflops = device_specs.get("tflops", 0.1)

        estimated_latency_ms = (flops / (device_tflops * 1e12 / 2)) * 1000

        return {
            "estimated_latency_ms": estimated_latency_ms,
            "model_size_mb": model_size_mb,
            "memory_estimate_mb": model_size_mb * 3,  # 输入+输出+中间
            "feasible": estimated_latency_ms < 100  # 100ms 以下可行
        }

TensorRT 加速推理

NVIDIA TensorRT 集成

# TensorRT 是 NVIDIA 提供的高性能深度学习推理优化器
# 支持 FP16、INT8 量化，层融合、内核自动调优

import tensorrt as trt
import numpy as np

# 1. ONNX → TensorRT Engine 转换
def build_tensorrt_engine(onnx_path, engine_path, fp16=True, int8=False):
    """将 ONNX 模型转换为 TensorRT Engine"""
    logger = trt.Logger(trt.Logger.WARNING)
    builder = trt.Builder(logger)
    network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
    parser = trt.OnnxParser(network, logger)

    # 解析 ONNX 模型
    with open(onnx_path, 'rb') as f:
        if not parser.parse(f.read()):
            for error in range(parser.num_errors):
                print(parser.get_error(error))
            return None

    # 构建配置
    config = builder.create_builder_config()
    config.set_memory_pool_limit(trt.MemoryPoolType.WORKSPACE, 1 << 30)  # 1GB

    if fp16:
        config.set_flag(trt.BuilderFlag.FP16)
    if int8:
        config.set_flag(trt.BuilderFlag.INT8)
        # INT8 校准器（需要提供校准数据）
        # config.int8_calibrator = MyCalibrator(calibration_data)

    # 构建并序列化 Engine
    serialized_engine = builder.build_serialized_network(network, config)
    if serialized_engine is None:
        print("TensorRT Engine 构建失败")
        return None

    with open(engine_path, 'wb') as f:
        f.write(serialized_engine)
    print(f"TensorRT Engine 已保存: {engine_path}")
    return serialized_engine

# 2. TensorRT 推理
class TensorRTEngine:
    """TensorRT 推理引擎"""

    def __init__(self, engine_path):
        self.logger = trt.Logger(trt.Logger.WARNING)
        self.runtime = trt.Runtime(self.logger)

        with open(engine_path, 'rb') as f:
            self.engine = self.runtime.deserialize_cuda_engine(f.read())

        self.context = self.engine.create_execution_context()

        # 分配 GPU 内存
        self.inputs = []
        self.outputs = []
        self.bindings = []
        self.stream = None

        for i in range(self.engine.num_io_tensors):
            name = self.engine.get_tensor_name(i)
            dtype = trt.nptype(self.engine.get_tensor_dtype(name))
            shape = self.engine.get_tensor_shape(name)
            size = np.prod(shape)
            host_mem = np.zeros(size, dtype)
            device_mem = np.zeros(size, dtype)
            self.bindings.append(device_mem)

            if self.engine.get_tensor_mode(name) == trt.TensorIOMode.INPUT:
                self.inputs.append({'host': host_mem, 'device': device_mem, 'shape': shape})
            else:
                self.outputs.append({'host': host_mem, 'device': device_mem, 'shape': shape})

    def infer(self, input_data):
        """执行推理"""
        import pycuda.driver as cuda
        import pycuda.autoinit

        # 拷贝输入数据到 GPU
        for inp, data in zip(self.inputs, input_data):
            np.copyto(inp['host'], data.ravel())
            cuda.memcpy_htod(inp['device'], inp['host'])

        # 执行推理
        self.context.execute_async_v3(stream_handle=self.stream)

        # 拷贝输出数据回 CPU
        results = []
        for out in self.outputs:
            cuda.memcpy_dtoh(out['host'], out['device'])
            results.append(out['host'].reshape(out['shape']))

        return results

# 3. 性能对比
def compare_inference_backends(model_path, test_input, num_iterations=100):
    """对比不同推理后端的性能"""
    import time

    results = {}

    # PyTorch 原生推理
    model = torch.jit.load(model_path)
    model.eval()
    with torch.no_grad():
        # 预热
        for _ in range(10):
            model(test_input)
        start = time.perf_counter()
        for _ in range(num_iterations):
            model(test_input)
        results['PyTorch CPU'] = (time.perf_counter() - start) / num_iterations * 1000

    # ONNX Runtime 推理
    ort_session = ort.InferenceSession(model_path.replace('.pt', '.onnx'))
    # ... 类似测试逻辑

    # TensorRT 推理
    # ... 类似测试逻辑

    for backend, latency in results.items():
        print(f"{backend}: {latency:.2f} ms")

    return results

模型部署流水线

完整部署流程

# 从训练到边缘部署的完整流程
class EdgeDeploymentPipeline:
    """边缘 AI 模型部署流水线"""

    def __init__(self, config):
        self.config = config
        self.steps = [
            self.validate_model,
            self.optimize_model,
            self.convert_format,
            self.benchmark_model,
            self.package_deployment,
            self.validate_deployment
        ]

    def run(self, model_path):
        """执行完整部署流水线"""
        current_artifact = model_path
        for step in self.steps:
            print(f"执行步骤: {step.__name__}")
            current_artifact = step(current_artifact)
            if current_artifact is None:
                raise RuntimeError(f"步骤 {step.__name__} 失败")
        return current_artifact

    def validate_model(self, model_path):
        """验证模型完整性和精度"""
        model = torch.jit.load(model_path)
        model.eval()

        # 用测试集验证精度
        test_accuracy = self._evaluate(model, self.config['test_data'])
        baseline = self.config.get('min_accuracy', 0.90)

        if test_accuracy < baseline:
            raise ValueError(f"模型精度 {test_accuracy:.4f} 低于基线 {baseline}")

        print(f"模型精度验证通过: {test_accuracy:.4f}")
        return model_path

    def optimize_model(self, model_path):
        """模型优化：量化 + 剪枝"""
        model = torch.jit.load(model_path)

        # 动态量化
        quantized = torch.quantization.quantize_dynamic(
            model, {nn.Linear}, dtype=torch.qint8
        )

        optimized_path = model_path.replace('.pt', '_optimized.pt')
        torch.jit.save(quantized, optimized_path)

        # 计算压缩比
        import os
        original_size = os.path.getsize(model_path)
        optimized_size = os.path.getsize(optimized_path)
        ratio = (1 - optimized_size / original_size) * 100
        print(f"模型压缩: {original_size/1e6:.1f}MB → {optimized_size/1e6:.1f}MB (节省 {ratio:.1f}%)")

        return optimized_path

    def convert_format(self, model_path):
        """转换为目标设备格式"""
        target = self.config.get('target_device', 'onnx')

        if target == 'onnx':
            return self._export_onnx(model_path)
        elif target == 'tflite':
            return self._export_tflite(model_path)
        elif target == 'tensorrt':
            return self._export_tensorrt(model_path)
        else:
            raise ValueError(f"不支持的目标格式: {target}")

    def _export_onnx(self, model_path):
        """导出 ONNX"""
        model = torch.jit.load(model_path)
        model.eval()
        onnx_path = model_path.replace('.pt', '.onnx')

        dummy_input = torch.randn(*self.config['input_shape'])
        torch.onnx.export(
            model, dummy_input, onnx_path,
            opset_version=17,
            input_names=["input"],
            output_names=["output"],
            dynamic_axes={"input": {0: "batch"}, "output": {0: "batch"}}
        )
        return onnx_path

    def benchmark_model(self, model_path):
        """基准测试"""
        engine = ONNXInferenceEngine(model_path)
        dummy_input = {name: np.random.randn(*shape).astype(np.float32)
                       for name, shape, _ in engine.input_info}

        results = engine.benchmark(dummy_input, num_iterations=200)

        target_latency = self.config.get('target_latency_ms', 50)
        if results['p95_ms'] > target_latency:
            print(f"警告: P95 延迟 {results['p95_ms']:.1f}ms 超过目标 {target_latency}ms")

        print(f"基准测试结果: 均值={results['mean_ms']:.1f}ms, "
              f"P95={results['p95_ms']:.1f}ms, QPS={results['throughput']:.0f}")
        return model_path

    def package_deployment(self, model_path):
        """打包部署产物"""
        import shutil
        deploy_dir = self.config.get('deploy_dir', './deploy')
        os.makedirs(deploy_dir, exist_ok=True)

        # 复制模型文件
        shutil.copy(model_path, deploy_dir)

        # 生成部署配置
        config = {
            "model_file": os.path.basename(model_path),
            "input_shape": self.config['input_shape'],
            "target_device": self.config.get('target_device', 'onnx'),
            "version": self.config.get('version', '1.0.0')
        }

        config_path = os.path.join(deploy_dir, 'deploy_config.json')
        with open(config_path, 'w') as f:
            json.dump(config, f, indent=2)

        print(f"部署产物已打包到: {deploy_dir}")
        return deploy_dir

    def validate_deployment(self, deploy_dir):
        """验证部署产物完整性"""
        required_files = ['deploy_config.json']

        for f in required_files:
            if not os.path.exists(os.path.join(deploy_dir, f)):
                raise FileNotFoundError(f"缺少必要文件: {f}")

        print("部署验证通过")
        return deploy_dir

    def _evaluate(self, model, test_data):
        """评估模型精度"""
        correct = total = 0
        with torch.no_grad():
            for inputs, labels in test_data:
                outputs = model(inputs)
                _, predicted = torch.max(outputs, 1)
                total += labels.size(0)
                correct += (predicted == labels).sum().item()
        return correct / total

边缘 AI 性能调优

性能分析与优化策略

# 1. 模型性能分析器
class ModelProfiler:
    """模型性能分析工具"""

    def __init__(self, model, input_shape=(1, 3, 224, 224)):
        self.model = model
        self.input_shape = input_shape

    def profile_layers(self):
        """分析每一层的计算量和参数量"""
        results = []
        dummy_input = torch.randn(*self.input_shape)

        hooks = []
        def hook_fn(module, input, output):
            # 计算参数量
            params = sum(p.numel() for p in module.parameters())
            # 计算输出大小
            output_size = output.numel() if isinstance(output, torch.Tensor) else 0
            results.append({
                'layer': module.__class__.__name__,
                'params': params,
                'output_size': output_size
            })

        for name, module in self.model.named_modules():
            if isinstance(module, (nn.Conv2d, nn.Linear, nn.BatchNorm2d)):
                hooks.append(module.register_forward_hook(hook_fn))

        # 执行一次前向推理
        with torch.no_grad():
            self.model(dummy_input)

        for h in hooks:
            h.remove()

        total_params = sum(r['params'] for r in results)
        print(f"模型总参数量: {total_params:,}")
        print(f"层数: {len(results)}")

        # 按参数量排序，找出最大层
        sorted_results = sorted(results, key=lambda x: x['params'], reverse=True)
        for r in sorted_results[:5]:
            pct = r['params'] / total_params * 100
            print(f"  {r['layer']}: {r['params']:,} params ({pct:.1f}%)")

        return results

    def measure_memory(self):
        """测量 GPU 内存使用"""
        torch.cuda.reset_peak_memory_stats()
        dummy_input = torch.randn(*self.input_shape).cuda()
        self.model.cuda()

        with torch.no_grad():
            self.model(dummy_input)

        peak_mem = torch.cuda.max_memory_allocated() / 1024 / 1024
        print(f"峰值 GPU 内存: {peak_mem:.1f} MB")
        return peak_mem

# 2. 推理优化检查清单
def optimization_checklist(model_info):
    """推理优化检查清单"""
    checks = {
        "模型量化": model_info.get('quantized', False),
        "ONNX 导出": model_info.get('onnx_exported', False),
        "动态 Batch": model_info.get('dynamic_batch', False),
        "算子融合": model_info.get('op_fusion', False),
        "内存优化": model_info.get('memory_optimized', False),
        "模型剪枝": model_info.get('pruned', False),
    }

    print("=== 优化检查清单 ===")
    for item, done in checks.items():
        status = "已优化" if done else "未优化"
        print(f"  [{status}] {item}")

    coverage = sum(checks.values()) / len(checks) * 100
    print(f"优化覆盖率: {coverage:.0f}%")

    if coverage < 50:
        print("建议: 优先进行模型量化和 ONNX 导出")
    elif coverage < 80:
        print("建议: 考虑算子融合和内存优化")

    return checks

优点

1.低延迟 — 本地推理无需网络
2.隐私保护 — 数据不出设备
3.离线运行 — 无需网络连接
4.成本低 — 无需云端 GPU

缺点

1.算力有限 — 边缘设备计算能力弱
2.内存受限 — 模型大小受限
3.精度损失 — 量化压缩降低精度
4.碎片化 — 不同设备需要适配

模型量化是边缘 AI 的核心技术，INT8 量化提供 4x 压缩和 2-4x 加速，量化感知训练（QAT）精度最高。ONNX Runtime 提供跨平台推理，支持 CUDA、CPU 和各种边缘设备。模型压缩策略包括结构化剪枝（移除通道）和知识蒸馏（大模型指导小模型）。部署策略按设备选择：Android 用 TFLite、iOS 用 Core ML、嵌入式用 ONNX Runtime Mobile。建议优先使用 INT8 量化 + ONNX Runtime，在精度和性能之间取得平衡。