Gateway:AI系统的入口
Gateway是AI系统的第一道关卡。身份验证、请求路由、限流保护、日志记录...所有请求都要先经过它。它是如何工作的?
你去一家高档餐厅吃饭,进门时服务生会先确认你的预订,然后引导你到座位。如果没有预订,或者餐厅已满,你就进不去。
AI系统的Gateway就像这个服务生——它是系统的「大门」,所有请求都要先经过它。它会检查你的身份,决定你能进哪个区域,还要确保餐厅不会被挤爆。
这听起来简单,但在AI系统中,Gateway承担着多个关键职责。让我们一个个来看。
Gateway不是简单的「传话筒」,它有四个核心职责:
每个请求到达Gateway时,首先要做的就是确认你是谁,以及你能做什么。
这里有个细节:API Key不是明文存储的,而是哈希后存储。即使数据库泄露,攻击者也无法还原出原始Key。
验证身份后,Gateway要决定把请求发给谁。这就像餐厅的服务生要根据你的需求,引导你去不同的区域——吃西餐去二楼,吃中餐去三楼。
路由策略可以根据多种因素决定:
路径路由:根据URL路径(/chat、/analyze)分发到不同Agent
类型路由:根据请求类型(文本、图像、音频)选择专门的Agent
权重路由:根据负载情况,动态调整流量分配
A/B测试:小流量测试新版本,对比效果后再全量发布
AI调用是要花钱的。如果没有限制,恶意用户可以疯狂刷请求,瞬间把你的账户刷爆。限流就是防止这种情况的「保险丝」。
按用户限流
每个用户每分钟最多60次请求(免费用户:10次/分钟)
按IP限流
同一IP每分钟最多100次请求(防止同一IP开多账号)
按成本限流
每小时Token消耗上限,防止单用户耗尽预算
全局限流
系统总QPS上限,保护后端不被压垮
限流的实现通常用令牌桶算法或漏桶算法。简单来说,就是给每个用户发一个「桶」,里面装着令牌。每次请求消耗一个令牌,桶会以固定速度补充令牌。桶空了,请求就被拒绝。
Gateway是系统的「监控摄像头」,记录所有进出的请求。这些日志有什么用?
🔍 问题排查
用户反馈「AI回复很慢」,查看日志发现某个请求耗时30秒,定位到模型响应慢
💰 成本分析
统计每个用户的Token消耗,发现Top 10用户占了80%的成本,考虑分级定价
📈 性能监控
实时监控响应时间,发现P95延迟突然升高,触发告警
🔒 安全审计
发现某个API Key异常高频调用,疑似泄露,及时禁用
Gateway和传统的API网关(如Kong、Nginx)有什么区别?
| 对比维度 | AI Gateway | 传统API网关 |
|---|---|---|
| 核心关注 | AI特有需求(Token、模型选择) | 通用API管理 |
| 成本管理 | ✓ 按Token计费和限流 | ✗ 不支持Token维度 |
| 模型路由 | ✓ 智能选择AI模型 | ✗ 需自己实现 |
| 缓存策略 | 语义缓存(相似问题复用) | 简单键值缓存 |
| 重试策略 | AI感知(模型降级) | 简单重试 |
核心要点
- ✓Gateway是AI系统的「大门」,所有请求的入口
- ✓四大职责:身份验证、请求路由、限流保护、日志记录
- ✓路由策略多样:路径、类型、权重、A/B测试
- ✓限流保护:防止恶意刷请求和成本失控
- ✓比传统网关更AI化:Token计费、模型路由、语义缓存
第76篇:会话管理——如何维护对话状态
Gateway让请求进了门,但如何让AI记住你的对话历史?会话管理就是解决这个问题的。下一篇,我们来聊聊会话ID、状态存储、历史加载...这些让AI「有记忆」的技术。
✏️ 手绘图解 · AI Catch 出品
第 75 篇 / 共 84 篇