钱多多-全链路API聚合
首页钱多多首页
首页钱多多首页
  1. 音频(Audio)
  • 发出请求
  • 完成对象
  • 模型接口
    • OpenAI
      • 基础文本对话
      • 流式响应
      • 图片理解
      • 函数调用
      • Logprobs 请求
      • 内容补全接口
      • 创建内容审核
      • 联网搜索
      • PDF文件分析
      • Codex
      • response_format
      • N测试
      • gpt-4-all(分析图片)
      • 令牌用量查询(Token Usage)
      • 列出模型
    • OpenAI(Responses)
      • 基础文本响应
      • 图像分析响应
      • 网络搜索工具
      • 文件搜索工具
      • 流式响应
      • deep-research / 深度研究
      • 函数调用
      • 推理能力
    • Anthropic Claude
      • Messages接口(推荐)
        • 文本生成
        • 图片理解
        • 文本生成 / 强制返回思考
        • 函数调用
        • 多轮函数调用
        • Web search / 联网搜索
      • OpenAI Chat接口
        • 文本生成
        • 图片理解
        • 文本生成 / 强制返回思考
        • 函数调用
        • 多轮函数调用
        • Web search / 联网搜索
    • Google Gemini
      • OpenAI 兼容接口(推荐)
        • 文本生成
        • 文本生成 / 强制返回思考
        • 图片理解
        • 函数调用
        • 全能多模态版本
        • 联网搜索
        • 文本转语音 / TTS
        • 音频理解
        • 视频理解
      • Google Gemini 接口
        • 文本生成
    • Midjourney
      • 1.文生图(Imagine)接口
      • 2.按钮点击(Action)接口
      • 3.图片融合(Blend)接口
      • 4.窗口执行(Modal)接口
      • 5.图生文(Describe)接口
      • 6.缩短提示词(Shorten)接口
      • 7.换脸(FaceSwap)接口
      • 8.上传(upload)接口
      • 9.查询接口
      • 10.批量查询接口
      • 11.获取种子(Seed)接口
      • 13.编辑图片(Edit)接口
      • 14.生成视频(Video)接口
      • 文生图 / OpenAI兼容接口
    • 图像(Image)
      • OpenAI
        • 图片生成 / gpt-image-1
        • 图片生成 / dall-e-3
        • 图片编辑 / edits接口
        • 图片编辑 / 网页版
        • 图片变体生成
        • gpt-4-all(生成图片)
      • Gemini
        • 图片生成(Nano-banana)
        • 图片生成 / Imagen 4
        • 图片编辑(Nano-banana)
        • 图片生成
        • 图片编辑
      • 豆包(doubao)
        • 文生图(纯文本输入单图输出)
        • 图文生图(单图输入单图输出)
        • 多图融合(多图输入单图输出)
        • 组图输出(多图输出)
      • xAI / OpenAI兼容接口
      • 通义千问 / OpenAI兼容接口
      • flux / OpenAI兼容接口
      • flux-kontext-pro / OpenAI兼容接口
      • stable-diffusion / OpenAI兼容接口
      • ideogram / OpenAI兼容接口
      • recraftv3 / OpenAI兼容接口
      • flux携带参考图 / OpenAI兼容接口
    • 视频(Video)
      • Sora-2
        • Sora-2(创建视频)
        • Sora-2(创建视频-带 Character)
        • 查询视频1(异步任务)
        • 查询视频2(异步任务)
        • Sora2官方接口(Chat格式)
      • 豆包(Doubao)
        • 豆包-文生视频
        • 查询视频
      • 即梦(Jimeng)
        • 即梦AI-文生视频S2.0Pro
        • 查询视频
      • 可灵AI(Kling)
        • 可灵AI-文生视频
        • 查询视频
      • 阿里云
        • 通义万相2.5(创建视频)
        • 查询视频(异步任务)
      • Veo 3
        • Veo 3
        • 查询视频
      • Vidu
        • Vidu-文生视频
        • 查询视频
      • OpenAI兼容接口
        • veo3
        • luma
        • runway
        • 智谱清言GLM
        • 可灵
    • 音频(Audio)
      • 文本转语音 / TTS
        POST
      • 语音转文本 / whisper-1
        POST
      • 语音转文本 / gpt-4o-transcribe
        POST
      • 音频翻译
        POST
      • Audio接口 / 输出
        POST
      • Audio接口 / 输入
        POST
      • MiniMax语音合成TTS
        POST
      • 豆包语音2.0
        POST
    • 音乐(Music)
      • Suno
        • 生成歌曲
        • 生成歌词
        • 上传音乐
        • 歌曲拼接
        • 单个查询任务
        • 批量查询任务
      • Udio
        • Udio(Chat格式)
    • 嵌入(Embeddings)
      • 创建文本嵌入(OpeniAI)
      • 批量创建嵌入(OpeniAI)
      • 创建文本嵌入(Gemini)
    • 重排序 (Rerank)
      • Jina AI 重排序格式
      • Cohere 重排序格式
      • Xinference 重排序格式
    • xAI
      • 联网搜索
      • 图片生成
    • 实时对话(Realtime)
      • Realtime API
    • GPTs 相关
      • GPTs对话
      • 搜索相关 GPTs
      • 查询 GPTs 详情
      • 批量查询 GPTs 详情
  • Python配置方式
    • Python基础对话
    • Python使用gpt-4o识别图片
    • Python使用Claude识别图片
  • 本地new
    • Sora
  1. 音频(Audio)

文本转语音 / TTS

主站接口①
https://api2.aigcbest.top/v1
主站接口①
https://api2.aigcbest.top/v1
POST
https://api2.aigcbest.top/v1
/audio/speech
了解如何将文本转换为音频。
相关指南:本转换为音频
使用 AI 模型将文本转换为自然语音,支持多种语音风格和输出格式
​
介绍
文本转语音(TTS)API 基于先进的生成 AI 模型,可以将输入的文本转换为逼真的语音音频。支持多种用途:
为书面博客文章配音
生成多种语言的语音音频
提供实时音频输出流
可用模型列表:
gpt-4o-audio-preview —— OpenAI 最新的音频生成模型,支持对话式音频生成
gpt-4o-mini-tts —— 智能实时应用的首选模型,支持高级语音控制,可以通过提示词控制多种语音特性:
口音 (Accent)
情感范围 (Emotional range)
语调 (Intonation)
印象/风格 (Impressions)
语速 (Speed of speech)
语调 (Tone)
轻声说话 (Whispering)
tts-1-hd —— 高清音质的上一代 TTS 模型
tts-1 —— 标准 TTS 模型,平衡质量和速度
性能建议: 为获得最快的响应时间,建议使用 wav 或 pcm 作为响应格式。对于高质量音频,建议使用 tts-1-hd;对于更快的生成速度,使用 tts-1;对于智能语音应用,推荐使用 gpt-4o-mini-tts。
音色预览: 你可以在 OpenAI.fm 试听不同音色效果。
模型调用方式
标准 TTS 模型(tts-1, tts-1-hd)
使用 /v1/audio/speech 端点,通过 client.audio.speech.create() 方法调用。
​
gpt-4o-mini-tts 模型
使用 /v1/audio/speech 端点,支持 instructions 参数进行高级语音控制。
gpt-4o-audio-preview 模型
使用 /v1/chat/completions 端点,需要设置 modalities: ["text", "audio"] 和 audio 配置。

请求参数

Header 参数

Body 参数application/json

示例
{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy",
    "response_format": "wav"
}

请求示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://api2.aigcbest.top/v1/audio/speech' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy",
    "response_format": "wav"
}'

返回响应

🟢200成功
application/json
Body

示例
{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy"
}
修改于 2025-10-31 19:12:03
上一页
可灵
下一页
语音转文本 / whisper-1
Built with