1.4 【动手】统一封装多模型调用层
实验目标
本节结束后,你将拥有一个可直接用于生产的多模型统一调用层:支持 OpenAI、Claude、Gemini、DeepSeek 等主流 API 的统一接口调用;当主力模型限流或宕机时自动 Fallback 到备用模型;支持异步并发批量推理,吞吐量相比串行调用提升 5–10 倍。
核心学习点:
1. LiteLLM 的核心价值:用一套接口抹平各家 API 差异,而不是手写 N 个适配器
2. Fallback 路由设计:如何在不改业务代码的情况下实现多模型容灾
3. 异步并发模式:asyncio + httpx 在 LLM 调用场景下的正确用法与陷阱
主流大模型 API 对比报告
数据截至 2025 年末 / 2026 年初,价格以美元计,部分通义千问价格为人民币折算约值。
一、价格对比(每百万 Token)
| 提供商 | 旗舰模型 | 输入价格 | 输出价格 | 缓存折扣 | 批处理折扣 | 上下文窗口 | 免费层 |
|---|---|---|---|---|---|---|---|
| OpenAI | GPT-4o / GPT-4.1 | $2.50(mini: $0.15) | $10.00(mini: $0.60) | 75% off | 50% off | 128K – 1M | 有限 |
| Claude | Sonnet 4.6 / Opus 4.6 / Haiku 4.5 | $3.00(Haiku: $1.00) | $15.00(Haiku: $5.00) | 90% off | 50% off | 1M | 无 |
| Gemini | 2.5 Pro / 2.5 Flash / Flash-Lite | $1.25(Flash: $0.15) | $7.50(Flash: $0.60) | 部分支持 | 支持 | 1M – 2M | 较慷慨 |
| DeepSeek | V3.2 / R1(推理) | $0.28(R1: $0.55) | $0.42(R1: $2.19) | 90% off($0.028) | — | 128K | 500万 Token |
| 通义千问 | Qwen3-Max / Plus / Flash / Long | ~\(0.35(Long: ~\)0.07) | ~\(1.40(Plus: ~\)0.44) | 支持 | 50% off | 1M – 10M | 7000万 Token |
旗舰输入价格排行(从高到低)
Claude Opus 4.6 ████████████████████ $5.00
OpenAI GPT-4o ██████████ $2.50
Gemini 2.5 Pro █████ $1.25
通义千问 Max █▍ ~$0.35
DeepSeek V3.2 █▏ $0.28
价格差距约 18×:旗舰 Claude Opus 与 DeepSeek V3.2 之间。DeepSeek 缓存命中价格 $0.028/M,几乎可忽略不计。
二、速率限制对比
| 提供商 | 计量方式 | 免费层限制 | 入门付费层 | 高级/企业层 | 扩容方式 |
|---|---|---|---|---|---|
| OpenAI | RPM + TPM | 5 RPM | Tier 1: 500 RPM / 200K TPM | Tier 5: 4,000+ RPM | Scale Tier 可按天购买 |
| Claude | RPM + ITPM + OTPM(分开计量) | 5 RPM | Tier 1: 50 RPM / 40K ITPM | Tier 4: 4,000 RPM / 400K+ ITPM | Priority Tier 可预购容量 |
| Gemini | RPM + TPM + RPD(按 Cloud 项目计) | Pro: 5 RPM / Flash: 10 / Lite: 15 | Tier 1: Pro 150 RPM / Flash 300 RPM | Tier 2: 1,000+ RPM(累计消费 $250 解锁) | 可申请提升 |
| DeepSeek | 无严格 RPM 限制 | 500万 Token 免费额度 | 直接按量付费 | 弹性扩展(服务器在中国) | 联系商务 |
| 通义千问 | RPM + TPM(按工作空间计) | 7000万 Token(新用户/新加坡限定) | 按量付费,默认中低 RPM | 企业版定制限额 | 联系阿里云 |