本文价值：这篇文章保留的是 AI 工程化主线：网络、Key、并发、失败、成本、Agent 编排和运行治理。

写在前面#

很多人觉得”会用 AI”就是会写 Prompt。但真正把 AI 落地到生产环境，你会发现 Prompt 只是冰山一角。网络怎么通？Key 怎么管？并发怎么扛？失败怎么重试？成本怎么控？这些才是 AI 工程化的核心问题。

这篇文章记录我从”调 API 玩玩”到”搭建完整 AI 基础设施”的过程，踩过的坑和总结的方法论。

第一阶段：直连 API 的天真时代#

最开始接触大模型 API，思路很简单：拿到 Key，curl 一下，拿到结果。

1
$response = Http::post('https://api.openai.com/v1/chat/completions', [
2
    'model' => 'gpt-4',
3
    'messages' => [['role' => 'user', 'content' => $prompt]],
4
]);

很快就遇到了现实问题：

国内网络不稳定，直连经常超时
单个 Key 有 RPM/TPM 限制，并发一上来就 429
Key 硬编码在代码里，泄露风险大
不同场景想用不同模型，但切换很麻烦

这些问题逼着我开始思考：怎么把 AI 调用从”写死的代码”变成”可管理的基础设施”。

第二阶段：反向代理 — 解决网络问题#

第一个要解决的是网络问题。方案很直接：在海外服务器上搭一层反向代理。

1
server {
2
    listen 443 ssl;
3
    server_name ai-proxy.example.com;
4

5
    location /v1/ {
6
        proxy_pass https://api.openai.com/v1/;
7
        proxy_set_header Authorization $http_authorization;
8
        proxy_set_header Content-Type $http_content_type;
9
        proxy_buffering off;  # SSE 流式输出必须关闭缓冲
10
        proxy_read_timeout 300s;
11
    }
12
}

关键细节：

proxy_buffering off 是必须的，不然 SSE 流式输出会被 Nginx 缓冲，用户看到的就不是逐字输出而是一坨一坨的
proxy_read_timeout 要设长一点，大模型生成长文本可能需要几十秒
SSL 证书要配好，API 调用走 HTTPS 是基本要求

这一层代理不仅解决了网络问题，还带来了一个额外好处：所有 AI 请求都经过我的服务器，可以做日志记录、流量统计、异常监控。

但很快又遇到新问题：代理服务器的带宽和连接数也是有限的。当多个用户同时发起长对话，代理服务器的连接数会飙升。

解决方案是引入连接池和请求队列：

1
// 使用 Guzzle 连接池，复用 TCP 连接
2
$client = new Client([
3
    'base_uri' => 'https://ai-proxy.example.com',
4
    'timeout' => 120,
5
    'connect_timeout' => 5,
6
    'http_errors' => false,
7
    'curl' => [
8
        CURLOPT_TCP_KEEPALIVE => 1,
9
        CURLOPT_TCP_KEEPIDLE => 30,
10
    ],
11
]);

第三阶段：号池管理 — 解决并发和成本问题#

单个 API Key 的限制是硬伤。OpenAI 的 Tier 1 账号 RPM 只有 500，GPT-4 更低。业务量一上来，429 错误满天飞。

我的方案是搭建一个 Key 号池系统：

1
class AiKeyPool
2
{
3
    /**
4
     * 从号池中获取可用的 Key
5
     * 策略：轮询 + 权重 + 冷却
6
     */
7
    public function getAvailableKey(string $model): ?AiKeyEntity
8
    {
9
        $keys = $this->getActiveKeys($model);
10

11
        foreach ($keys as $key) {
12
            // 检查是否在冷却期（被 429 后冷却 60s）
13
            if ($this->isInCooldown($key->id)) {
14
                continue;
15
            }
16

17
            // 检查当前分钟的请求数是否超限
18
            $currentRpm = $this->getCurrentRpm($key->id);
19
            if ($currentRpm >= $key->rpm_limit) {
20
                continue;
21
            }
22

23
            // 记录使用次数
24
            $this->incrementUsage($key->id);
25
            return $key;
26
        }
27

28
        return null; // 所有 Key 都不可用
29
    }
30

31
    /**
32
     * Key 被限流后进入冷却期
33
     */
34
    public function markCooldown(int $keyId, int $seconds = 60): void
35
    {
36
        Redis::setex("ai_key_cooldown:{$keyId}", $seconds, 1);
37
    }
38

39
    /**
40
     * 记录每个 Key 的使用量，用于监控和计费
41
     */
42
    private function incrementUsage(int $keyId): void
43
    {
44
        $minuteKey = "ai_key_rpm:{$keyId}:" . date('YmdHi');
45
        $dayKey = "ai_key_daily:{$keyId}:" . date('Ymd');
46

47
        Redis::incr($minuteKey);
48
        Redis::expire($minuteKey, 120);
49

50
        Redis::incr($dayKey);
51
        Redis::expire($dayKey, 86400 * 2);
52
    }
53
}

号池的核心设计思路：

轮询分发：请求均匀分配到不同 Key，避免单点压力
冷却机制：某个 Key 被 429 后自动冷却，不再分配请求
用量统计：每个 Key 的 RPM、日用量都有记录，方便监控成本
动态权重：可以给不同 Key 设置权重，比如付费 Key 权重高、免费 Key 权重低

这套号池系统上线后，429 错误率从 15% 降到了 0.3%。

多供应商统一接入#

号池不仅管理同一个供应商的多个 Key，还要管理不同供应商的 Key。OpenAI、DeepSeek、Qwen、GLM 的 API 格式大同小异，但有细微差别。

我设计了一个模型管理表来抽象这些差异：

1
CREATE TABLE ai_models (
2
    id INT PRIMARY KEY AUTO_INCREMENT,
3
    name VARCHAR(50) NOT NULL COMMENT '模型名称',
4
    provider VARCHAR(30) NOT NULL COMMENT '供应商: openai/deepseek/qwen/glm',
5
    model_name VARCHAR(50) NOT NULL COMMENT 'API 模型标识',
6
    base_url VARCHAR(200) NOT NULL COMMENT 'API 地址',
7
    api_key TEXT NOT NULL COMMENT 'API Key（加密存储）',
8
    rpm_limit INT DEFAULT 500 COMMENT 'RPM 限制',
9
    tpm_limit INT DEFAULT 100000 COMMENT 'TPM 限制',
10
    input_price DECIMAL(10,6) COMMENT '输入价格 $/1K tokens',
11
    output_price DECIMAL(10,6) COMMENT '输出价格 $/1K tokens',
12
    status TINYINT DEFAULT 1,
13
    created_at DATETIME
14
);

关键设计：base_url 字段让每个模型可以指向不同的 API 地址。OpenAI 走反向代理，DeepSeek 直连国内 API，Qwen 走阿里云。这样切换模型只需要改数据库配置，不需要改代码。

1
class AiChatService
2
{
3
    public function chat(array $messages, AiModels $model): ChatResult
4
    {
5
        $client = new Client([
6
            'base_uri' => $model->base_url,
7
            'timeout' => 120,
8
        ]);
9

10
        // 所有供应商都兼容 OpenAI 格式
11
        $response = $client->post('/v1/chat/completions', [
12
            'headers' => [
13
                'Authorization' => 'Bearer ' . decrypt($model->api_key),
14
                'Content-Type' => 'application/json',
15
            ],
16
            'json' => [
17
                'model' => $model->model_name,
18
                'messages' => $messages,
19
                'temperature' => $model->temperature ?? 0.7,
20
                'max_tokens' => $model->max_tokens ?? 4096,
21
            ],
22
        ]);
23

24
        return ChatResult::fromResponse(json_decode($response->getBody(), true));
25
    }
26
}

为什么所有供应商都用 OpenAI 格式？因为 DeepSeek、Qwen、GLM 都兼容 OpenAI 的 API 格式。这是行业事实标准，一套代码接入所有模型。

成本控制：预算告警#

号池不仅管理并发，还管理成本。每个 Key 都有日预算限制：

1
public function checkBudget(int $keyId): bool
2
{
3
    $key = $this->getKey($keyId);
4
    $todayUsage = $this->getTodayUsage($keyId);
5

6
    // 计算今日花费
7
    $cost = ($todayUsage['input_tokens'] / 1000) * $key->input_price
8
          + ($todayUsage['output_tokens'] / 1000) * $key->output_price;
9

10
    if ($cost >= $key->daily_budget) {
11
        Log::warning("Key {$keyId} 已达日预算上限: \${$cost}");
12
        return false;
13
    }
14

15
    // 80% 预警
16
    if ($cost >= $key->daily_budget * 0.8) {
17
        $this->sendBudgetAlert($keyId, $cost, $key->daily_budget);
18
    }
19

20
    return true;
21
}

这套预算系统避免了一个真实发生过的事故：某次 Prompt 写错导致死循环调用，如果没有预算限制，一晚上能烧掉几百美元。

第四阶段：智能体系统 — 从 API 调用到 Agent 编排#

解决了基础设施问题后，下一步是让 AI 调用变得更灵活。不同业务场景需要不同的 Prompt、不同的模型、不同的参数。

我设计了一套智能体（Agent）管理系统：

1
CREATE TABLE ai_agents (
2
    id INT PRIMARY KEY AUTO_INCREMENT,
3
    name VARCHAR(100) NOT NULL COMMENT '智能体名称',
4
    system_prompt TEXT COMMENT '系统提示词',
5
    model_id INT NOT NULL COMMENT '关联的模型',
6
    scene VARCHAR(30) NOT NULL DEFAULT 'chat' COMMENT '使用场景',
7
    mode VARCHAR(20) NOT NULL DEFAULT 'chat' COMMENT '对话模式',
8
    temperature DECIMAL(3,2) DEFAULT 0.7,
9
    max_tokens INT DEFAULT 4096,
10
    status TINYINT DEFAULT 1,
11
    created_at DATETIME
12
);

scene 字段是关键设计。同一个智能体系统，通过 scene 区分不同的使用场景：

chat：日常对话，温度高一点，回答更有创意
goods_script：电商口播词生成，温度低一点，输出更稳定

1
class AiAgentsDep extends BaseDep
2
{
3
    /**
4
     * 根据场景获取激活的智能体
5
     */
6
    public function getActiveByScene(string $scene): ?Model
7
    {
8
        return $this->model
9
            ->where('scene', $scene)
10
            ->where('status', CommonEnum::STATUS_ACTIVE)
11
            ->orderBy('id', 'desc')
12
            ->first();
13
    }
14
}

智能体 + 模型的组合让 AI 调用变得非常灵活。运营人员可以在后台直接调整 Prompt 和参数，不需要改代码、不需要发版。

第五阶段：AI 运行监控 — 让每次调用都可追溯#

AI 调用不像普通接口，它有不确定性。同样的输入可能产生不同的输出，而且成本不低（GPT-4 一次调用可能几毛钱）。所以必须有完善的监控。

我设计了两张表来记录每次 AI 调用：

1
ai_runs（运行记录）
2
├── agent_id     → 用了哪个智能体
3
├── model_id     → 用了哪个模型
4
├── input_tokens → 输入 Token 数
5
├── output_tokens → 输出 Token 数
6
├── duration_ms  → 耗时
7
├── status       → 成功/失败
8
└── ai_run_steps（运行步骤）
9
    ├── step: PROMPT    → 构建提示词
10
    ├── step: LLM       → 模型调用
11
    └── step: FINALIZE  → 结果处理

每次 AI 调用都会记录完整的链路：用了什么 Prompt、调了什么模型、花了多少 Token、耗时多久。这些数据不仅用于排查问题，还能用于成本分析和效果优化。

1
// 记录一次完整的 AI 调用
2
$run = AiRun::create([
3
    'agent_id' => $agent->id,
4
    'model_id' => $agent->model_id,
5
    'scene' => 'goods_script',
6
    'status' => 'running',
7
]);
8

9
// Step 1: 构建 Prompt
10
AiRunStep::create([
11
    'run_id' => $run->id,
12
    'step' => 'PROMPT',
13
    'input' => json_encode($messages),
14
    'started_at' => now(),
15
]);
16

17
// Step 2: 调用模型
18
$result = $aiChatService->chat($messages, $model);
19

20
// Step 3: 记录结果
21
AiRunStep::create([
22
    'run_id' => $run->id,
23
    'step' => 'LLM',
24
    'output' => $result->content,
25
    'tokens_in' => $result->usage->prompt_tokens,
26
    'tokens_out' => $result->usage->completion_tokens,
27
]);

有了这套监控，我可以清楚地知道：

每天花了多少钱在 AI 上
哪个智能体的效果最好
哪些调用失败了，失败原因是什么
平均响应时间是多少，有没有变慢的趋势

监控面板数据示例#

1
┌─────────────────────────────────────────────────┐
2
│  AI 调用监控面板                                  │
3
├─────────────────────────────────────────────────┤
4
│  今日调用次数：347                                │
5
│  成功率：98.6%                                   │
6
│  平均响应时间：3.2s                               │
7
│  今日 Token 消耗：1,247,832                      │
8
│  今日费用：$4.73                                  │
9
├─────────────────────────────────────────────────┤
10
│  按场景统计：                                     │
11
│  chat:          218 次  $2.89  avg 2.8s          │
12
│  goods_script:  129 次  $1.84  avg 3.9s          │
13
├─────────────────────────────────────────────────┤
14
│  按模型统计：                                     │
15
│  deepseek-v4:   201 次  $0.42  avg 2.1s          │
16
│  gpt-5.3:        89 次  $3.15  avg 4.7s          │
17
│  qwen-3.5:       57 次  $1.16  avg 3.4s          │
18
└─────────────────────────────────────────────────┘

这些数据直接驱动了模型选择的决策。比如发现 DeepSeek V4 在口播词生成场景的效果和 GPT-5.3 差不多，但成本只有 1/7，于是把 goods_script 场景的默认模型从 GPT 切到了 DeepSeek。

第六阶段：错误处理与优雅降级#

AI 服务不是 100% 可靠的。网络波动、服务降级、Token 超限都可能导致调用失败。一个生产级的 AI 系统必须有完善的错误处理。

重试策略#

1
class AiRetryHandler
2
{
3
    private const RETRYABLE_CODES = [429, 500, 502, 503, 504];
4
    private const MAX_RETRIES = 3;
5

6
    public function callWithRetry(callable $fn): mixed
7
    {
8
        $lastException = null;
9

10
        for ($attempt = 0; $attempt <= self::MAX_RETRIES; $attempt++) {
11
            try {
12
                return $fn();
13
            } catch (AiApiException $e) {
14
                $lastException = $e;
15

16
                if (!in_array($e->getCode(), self::RETRYABLE_CODES)) {
17
                    throw $e; // 不可重试的错误直接抛出
18
                }
19

20
                if ($attempt === self::MAX_RETRIES) {
21
                    throw $e; // 重试次数用完
22
                }
23

24
                // 指数退避：1s, 2s, 4s
25
                $delay = pow(2, $attempt);
26

27
                // 429 特殊处理：读取 Retry-After 头
28
                if ($e->getCode() === 429 && $e->retryAfter) {
29
                    $delay = max($delay, $e->retryAfter);
30
                }
31

32
                Log::info("AI 调用重试 #{$attempt}, 等待 {$delay}s", [
33
                    'error' => $e->getMessage(),
34
                ]);
35

36
                sleep($delay);
37
            }
38
        }
39

40
        throw $lastException;
41
    }
42
}

模型降级#

当主模型不可用时，自动切换到备用模型：

1
public function chatWithFallback(array $messages, string $scene): ChatResult
2
{
3
    // 获取场景对应的智能体（可能有多个，按优先级排序）
4
    $agents = $this->dep(AiAgentsDep::class)->getActiveByScene($scene);
5

6
    foreach ($agents as $agent) {
7
        $model = AiModels::find($agent->model_id);
8

9
        try {
10
            return $this->retryHandler->callWithRetry(
11
                fn() => $this->aiChatService->chat($messages, $model)
12
            );
13
        } catch (AiApiException $e) {
14
            Log::warning("模型 {$model->name} 不可用，尝试降级", [
15
                'error' => $e->getMessage(),
16
            ]);
17
            continue; // 尝试下一个模型
18
        }
19
    }
20

21
    throw new BusinessException('所有 AI 模型均不可用，请稍后再试');
22
}

这套降级机制在实际运行中救过好几次。有一次 OpenAI 服务降级了 2 小时，系统自动切到 DeepSeek，用户完全无感知。

总结：AI 工程化的核心能力#

回顾这段经历，我觉得 AI 工程化的核心不是”会写 Prompt”，而是：

基础设施能力：网络代理、Key 管理、连接池
系统设计能力：智能体抽象、场景隔离、配置化管理
可观测性：调用链路追踪、成本监控、效果评估
工程化思维：异步队列、错误重试、优雅降级

AI 只是一个能力，怎么把这个能力稳定、高效、可控地集成到业务系统中，才是 Agent 工程师真正要解决的问题。

在我看来，未来不会有”前端工程师”和”后端工程师”的严格区分，而是”能不能用最合适的技术解决问题”。语言和框架只是工具，选择合适的工具、设计合理的架构、让 AI 真正产生业务价值，这才是核心竞争力。