跳到内容
DeepToken推理与计费网关
首页控制台模型排行榜文档定价企业版博客
    对话补全

    入门

    • 快速入门
    • 快速开始
    • 集成

    API

    • 认证
    • 对话补全
    • 模型
    • 错误

    计费

    • 计费
    • 组织

    入门

    • 快速入门
    • 快速开始
    • 集成

    API

    • 认证
    • 对话补全
    • 模型
    • 错误

    计费

    • 计费
    • 组织

    对话补全

    POST /v1/chat/completions 是生成文本、代码或结构化 JSON 的主要端点,兼容 OpenAI Chat Completions API 的请求与响应结构。

    注意

    DeepToken 负责渠道路由、优先级、故障转移、Token 统计和配额结算。客户端只需使用规范模型 ID 发起请求。


    端点信息

    • URL:https://api.deeptoken.app/v1/chat/completions
    • 方法:POST
    • 请求头:
      • Authorization: Bearer <DEEPTOKEN_API_KEY>(必填)
      • Content-Type: application/json(必填)
      • X-DeepToken-Org: <ORG_SLUG>(可选,将费用归因到指定组织)

    代码示例

    选择常用接入方式查看完整请求:

    curl https://api.deeptoken.app/v1/chat/completions \
      -H "Authorization: Bearer $DEEPTOKEN_API_KEY" \
      -H "Content-Type: application/json" \
      -d '{
        "model": "gpt-4o-mini",
        "messages": [
          {
            "role": "user",
            "content": "为什么天空是蓝色的?"
          }
        ],
        "temperature": 0.7
      }'
    

    请求参数

    请求体为 JSON 对象,常用字段如下:

    参数类型是否必填说明
    modelstring是要调用的规范模型 ID,可在模型目录中查询。
    messagesarray是对话历史消息列表,结构见下方消息对象。
    temperaturenumber否,默认 1取值通常为 0 到 2。值越高输出越随机,越低越稳定。
    top_pnumber否,默认 1核采样参数。通常不建议同时大幅调整 temperature 和 top_p。
    streamboolean否,默认 false为 true 时通过 Server-Sent Events(SSE)逐步返回结果。
    max_tokensinteger否限制本次补全最多生成的 Token 数。
    stopstring 或 array否遇到指定序列时停止生成,最多可传多个停止序列。
    response_formatobject否可请求 JSON 对象或模型支持的结构化输出格式。
    toolsarray否模型可调用的工具或函数定义。
    tool_choicestring 或 object否控制工具调用策略,例如 none、auto、required 或指定工具。

    消息对象

    messages 数组中的每个对象包含:

    字段类型是否必填说明
    rolestring是消息角色:system、user、assistant 或 tool。
    contentstring 或 array是消息内容;多模态模型可使用内容分段数组。
    namestring否参与者名称,用于区分同一角色下的多个来源。
    tool_call_idstring工具响应时需要当前 tool 消息对应的工具调用 ID。

    响应结构

    非流式请求成功时返回类似以下 JSON:

    {
      "id": "chatcmpl-9A8b9C...",
      "object": "chat.completion",
      "created": 1718029562,
      "model": "gpt-4o-mini",
      "choices": [
        {
          "index": 0,
          "message": {
            "role": "assistant",
            "content": "天空呈蓝色主要是因为瑞利散射……"
          },
          "finish_reason": "stop"
        }
      ],
      "usage": {
        "prompt_tokens": 13,
        "completion_tokens": 85,
        "total_tokens": 98
      }
    }
    

    响应字段

    • id:本次对话补全的唯一标识。
    • object:对象类型,通常为 chat.completion。
    • created:创建响应时的 Unix 时间戳,单位为秒。
    • model:本次请求使用的规范模型 ID。
    • choices:补全结果列表。
      • message:模型生成的消息。
      • finish_reason:停止原因,例如 stop、length 或 tool_calls。
    • usage:本次请求的 Token 用量统计。
    重要

    DeepToken 会结合实际 Token 用量和计价倍率完成结算。客户端如需展示成本或配额,请以控制台使用记录和钱包流水为最终依据,不要仅使用本地估算。


    流式响应

    设置 "stream": true 后,服务端通过 SSE 返回多个 chat.completion.chunk 事件。客户端应持续读取 choices[].delta,直到收到结束标记,并正确处理连接中断和超时。

    {
      "model": "gpt-4o-mini",
      "messages": [
        {"role": "user", "content": "列出三个网关监控指标"}
      ],
      "stream": true
    }
    

    流式请求同样会写入使用记录,并在请求结束后按真实用量结算。对于中途取消的请求,仍可能产生已经由上游处理的 Token 和相应费用。

    上一篇

    认证

    下一篇

    模型

    本页目录

    • 端点信息
    • 代码示例
    • 请求参数
    • 消息对象
    • 响应结构
    • 响应字段
    • 流式响应