Loading models…
使用方式
语音转文本模型可将口语音频转录为书面文本。它们通过 Audio Transcriptions API 访问。支持的音频格式
mp3、mp4、mpeg、mpga、m4a、wav、webm、flac、ogg
响应格式
| 格式 | 说明 |
|---|---|
json | 默认。返回 { "text": "..." }。 |
text | 纯文本转录结果。 |
srt | 带时间戳的 SubRip 字幕格式。 |
vtt | 带时间戳的 WebVTT 字幕格式。 |
verbose_json | 包含段级时间戳和元数据的完整响应。 |
计费按输入音频的秒数进行。请参阅 Audio Transcriptions API 了解请求示例和参数细节。