Speech-to-Text Models | Venice API Docs

Loading models…

Verwendung

Speech-to-Text-Modelle transkribieren gesprochenes Audio in geschriebenen Text. Sie werden über die Audio-Transcriptions-API aufgerufen.

mp3, mp4, mpeg, mpga, m4a, wav, webm, flac, ogg

Format	Beschreibung
`json`	Standard. Gibt `{ "text": "..." }` zurück.
`text`	Reiner transkribierter Text.
`srt`	SubRip-Untertitelformat mit Zeitstempeln.
`vtt`	WebVTT-Untertitelformat mit Zeitstempeln.
`verbose_json`	Vollständige Antwort mit Zeitstempeln auf Segmentebene und Metadaten.

Die Abrechnung erfolgt pro Sekunde Eingabe-Audio. Anfrage-Beispiele und Parameterdetails finden Sie in der Audio-Transcriptions-API.

⌘I