1.4 【动手】统一封装多模型调用层

实验目标

本节结束后，你将拥有一个可直接用于生产的多模型统一调用层：支持 OpenAI、Claude、Gemini、DeepSeek 等主流 API 的统一接口调用；当主力模型限流或宕机时自动 Fallback 到备用模型；支持异步并发批量推理，吞吐量相比串行调用提升 5–10 倍。

核心学习点： 1. LiteLLM 的核心价值：用一套接口抹平各家 API 差异，而不是手写 N 个适配器 2. Fallback 路由设计：如何在不改业务代码的情况下实现多模型容灾 3. 异步并发模式：asyncio + httpx 在 LLM 调用场景下的正确用法与陷阱

主流大模型 API 对比报告

数据截至 2025 年末 / 2026 年初，价格以美元计，部分通义千问价格为人民币折算约值。

一、价格对比（每百万 Token）

提供商	旗舰模型	输入价格	输出价格	缓存折扣	批处理折扣	上下文窗口	免费层
OpenAI	GPT-4o / GPT-4.1	$2.50（mini: $0.15）	$10.00（mini: $0.60）	75% off	50% off	128K – 1M	有限
Claude	Sonnet 4.6 / Opus 4.6 / Haiku 4.5	$3.00（Haiku: $1.00）	$15.00（Haiku: $5.00）	90% off	50% off	1M	无
Gemini	2.5 Pro / 2.5 Flash / Flash-Lite	$1.25（Flash: $0.15）	$7.50（Flash: $0.60）	部分支持	支持	1M – 2M	较慷慨
DeepSeek	V3.2 / R1（推理）	$0.28（R1: $0.55）	$0.42（R1: $2.19）	90% off（$0.028）	—	128K	500万 Token
通义千问	Qwen3-Max / Plus / Flash / Long	~$0.35（Long: ~$0.07）	~$1.40（Plus: ~$0.44）	支持	50% off	1M – 10M	7000万 Token

旗舰输入价格排行（从高到低）

Claude Opus 4.6   ████████████████████  $5.00
OpenAI GPT-4o     ██████████            $2.50
Gemini 2.5 Pro    █████                 $1.25
通义千问 Max       █▍                    ~$0.35
DeepSeek V3.2     █▏                    $0.28

价格差距约 18×：旗舰 Claude Opus 与 DeepSeek V3.2 之间。DeepSeek 缓存命中价格 $0.028/M，几乎可忽略不计。

二、速率限制对比

提供商	计量方式	免费层限制	入门付费层	高级/企业层	扩容方式
OpenAI	RPM + TPM	5 RPM	Tier 1: 500 RPM / 200K TPM	Tier 5: 4,000+ RPM	Scale Tier 可按天购买
Claude	RPM + ITPM + OTPM（分开计量）	5 RPM	Tier 1: 50 RPM / 40K ITPM	Tier 4: 4,000 RPM / 400K+ ITPM	Priority Tier 可预购容量
Gemini	RPM + TPM + RPD（按 Cloud 项目计）	Pro: 5 RPM / Flash: 10 / Lite: 15	Tier 1: Pro 150 RPM / Flash 300 RPM	Tier 2: 1,000+ RPM（累计消费 $250 解锁）	可申请提升
DeepSeek	无严格 RPM 限制	500万 Token 免费额度	直接按量付费	弹性扩展（服务器在中国）	联系商务
通义千问	RPM + TPM（按工作空间计）	7000万 Token（新用户/新加坡限定）	按量付费，默认中低 RPM	企业版定制限额	联系阿里云