OmniAI 多模型接口调用指南

调用说明

本站点提供统一的API接口，支持多种AI模型的无缝调用，包括OpenAI、Claude、Gemini、Midjourney等。本文档将详细介绍各模型的调用方法和示例。

基本配置

接口地址

将原始API地址从 https://api.openai.com 替换为 https://api.pandalla.ai

身份认证

使用在令牌页面https://api.pandalla.ai/token 生成的密钥进行API调用

请注意：生成令牌的时候需注意分组，代表了不同的渠道消耗

参照OpenAI官方文档进行模型配置

Python 示例

pip install openai

from openai import OpenAI

client = OpenAI(
  base_url="https://api.pandalla.ai/v1",
  api_key="sk-替换为你的key"
)

completion = client.chat.completions.create(
  model="gpt-4o-mini",
  max_tokens=16384,
  messages=[
    {"role": "user", "content": "hi~"}
  ]
)

print(completion)

Curl 示例

聊天接口

curl --request POST \
    --url https://api.pandalla.ai/v1/chat/completions \
    --header 'Authorization: Bearer sk-替换为你的key' \
    -H "Content-Type: application/json" \
    --data '{
      "max_tokens": 1024,
      "model": "gpt-4o-mini",
      "temperature": 0.8,
      "top_p": 1,
      "presence_penalty": 1,
      "messages": [
          {
              "role": "system",
              "content": "You are ChatGPT, a large language model trained by OpenAI."
          },
          {
              "role": "user",
              "content": "hi~"
          }
      ]
  }'

图片理解（vision）

curl  https://api.pandalla.ai/v1/chat/completions \
    -H 'Authorization: Bearer sk-替换为你的key' \
    -H "Content-Type: application/json" \
    -d '{
      "max_tokens": 1024,
      "model": "gpt-4-vision-preview",
      "messages": [
          {
              "role": "system",
              "content": "You are an expert Tailwind developer"
          },
          {
              "role": "user",
              "content": [
                  {
                      "type": "text",
                      "text": "将图片生成网页代码"
                  },
                  {
                      "type": "image_url",
                      "image_url": {
                          "url": "data:image/jpeg;base64,xxxx=图片链接或者图片base64"
                      }
                  }
              ]
          }
      ]
  }'

Anthropic（Claude）

目前支持使用OpenAI SDK或者使用OpenAI API格式请求调用，您只需要将model改成Claude的模型名称即可调用Claude的模型。

Google（Gemini）

目前支持使用OpenAI SDK或者使用OpenAI API格式请求调用，您只需要将model改成Gemini的模型名称即可调用Gemini的模型。

特殊用法

由于现在越来越多的模型支持了很多新特性，OpenAI API格式已经无法满足需求，有些特殊的调用方法，将在本页面进行说明。

Gemini

开启联网搜索

在请求时，增加 tools 参数，并设置 name 为 googleSearch 即可开启联网搜索。

curl -X POST https://api.pandalla.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-替换为你的key" \
  -d '{
    "model": "gemini-1.5-flash-002",
    "messages": [{"role": "user", "content": "今天有什么新闻"}],
    "tools": [
    {
      "function": {
        "name": "googleSearch",
        "parameters": {}
      },
      "type": "function"
    }
  ]
  }'

开启代码执行

在请求时，增加 tools 参数，并设置 name 为 codeExecution 即可开启代码执行。

curl -X POST https://api.pandalla.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-替换为你的key" \
  -d '{
    "model": "gemini-1.5-flash-002",
    "messages": [{"role": "user", "content": "计算2的7次方"}],
    "tools": [
    {
      "function": {
        "name": "codeExecution",
        "parameters": {}
      },
      "type": "function"
    }
  ]
  }'

参数设置（特殊说明）

由于现在越来越多的模型属于推理模型，并且不同模型的参数限制存在差异，有些特殊的参数设置，将在本页面进行说明。

OpenAI

支持缓存的模型（gpt-4o-mini等）默认启用缓存功能，但只有输入即prompt_tokens大于1024才会触发。同时由于存在多个账号/组织并发承接请求，请求有概率被分发到不同的账号/组织进行转发，因此缓存有小概率不触发。
推理模型（o1、o1-mini、o3、o3-mini、o4-mini等）默认开启推理且无法手动关闭，推理过程内容不返回。
推理模型（o1、o1-mini、o3、o3-mini、o4-mini等）不支持设置temperature/top_k/top_p等参数。
推理模型（o1、o1-mini、o3、o3-mini、o4-mini等）支持通过reasoning.effort参数来控制推理强度，可以设置为low/medium/high。
对于推理模型不推荐设置过小的max_tokens，如果返回内容中finish_reason为length并且content为空，则表示对于请求的问题推理长度设置过小。
推理模型（o1、o1-mini、o3、o3-mini、o4-mini等）如果返回400，可能是因为提示词不合规或者被识别为蒸馏行为，建议参考文档更改提示词。

Anthropic（Claude）

由于模型必须手动传入max_tokens，若请求未传入会自动设置为模型的最大值，例如claude-3.7的最大值为 128000。
推理模型（claude-3.5，claude-3.7，claude-4等）默认关闭推理。
推理模型（claude-3.5，claude-3.7，claude-4等）需要通过reasoning参数对象来开启推理，大部分情况下有推理内容返回，小概率被官方加密不返回：
- 推理长度budget_tokens未设置则默认为max_tokens的80%
- 支持通过设置reasoning.effort="low/medium/high"或者reasoning.max_tokens=xx来控制推理长度
- reasoning.max_tokens的优先级高于reasoning.effort
- reasoning.effort的high/medium/low分别对应max_tokens的80%/50%/20%
- reasoing.max_tokens不可超过max_tokens且不能低于1024
推理模型（claude-3.5，claude-3.7，claude-4等）开启推理后，temperature/top_k/top_p等参数只能设置为1，参考文档。

Google（Gemini）

Gemini每个模型的参数规则和约束不一致，需要看具体模型。另Gemini推理模型的reasoning_tokens的计数不包含在输出tokens即completion_tokens中，

2.5-flash默认开启推理，可以通过reasoning.max_tokens控制推理长度（最低为1024），支持设置reasoning.max_tokens=0来关闭推理，返回推理过程
2.5-pro默认开启推理且不可关闭，可以通过reasoning.max_tokens控制推理长度（最低为1024），返回推理过程。
gemini-2.5-flash-preview-04-17对应的thinking和non-thinking模型不支持reasoning参数。
若响应返回’message’: ‘No candidates returned表示内容审核后不合规，需要修改内容。参考文档