モデル
リクエストボディで指定するモデル ID は、ゲートウェイのカタログと照合されます。リストは動的です — 管理者はクライアントのリリースなしにモデルを有効化、無効化、再マッピングできます。
モデルの発見
カタログを公開する2つのインターフェース:
- 公開カタログ — マーケティング用のリスト。匿名の訪問者が無料プランに登録した場合に表示されるもの。
GET /v1/models— 認証済み。API キーが呼び出せるモデルに絞り込みます。
両エンドポイントは管理者のリアルタイム状態を反映します — 上流チャネルを無効化すると、30秒以内にカタログからモデルが消えます。
ルーティング
model フィールド付きで /v1/chat/completions を呼び出すと、ゲートウェイは:
- そのモデルを提供するすべての有効なチャネルを検索。
- ティアのグループでフィルタリング(free / pro / team / enterprise + 共有デフォルトグループ)。
- 最も優先度の高い正常なチャネルを選択。同率の場合は重み、次に ID で決定。
- 一時的な上流障害(5xx、タイムアウト、接続リセット)の場合、チェーン内の次のチャネルでリトライ。リクエストごとに最大3回のフォールバック。
モデルの再マッピング
チャネルはユーザー向けモデル ID をベンダー固有のデプロイメント ID に再マッピングできます(例:gpt-4o → my-azure-deployment-name)。再マッピングはクライアントに対して透過的です — 課金は正規のモデル ID に対して行われ、レスポンスも正規の ID を持ちます。