Zum Hauptinhalt springen
Loading models…

Verwendung

Speech-to-Text-Modelle transkribieren gesprochenes Audio in geschriebenen Text. Sie werden über die Audio-Transcriptions-API aufgerufen.

Unterstützte Audioformate

mp3, mp4, mpeg, mpga, m4a, wav, webm, flac, ogg

Antwortformate

FormatBeschreibung
jsonStandard. Gibt { "text": "..." } zurück.
textReiner transkribierter Text.
srtSubRip-Untertitelformat mit Zeitstempeln.
vttWebVTT-Untertitelformat mit Zeitstempeln.
verbose_jsonVollständige Antwort mit Zeitstempeln auf Segmentebene und Metadaten.
Die Abrechnung erfolgt pro Sekunde Eingabe-Audio. Anfrage-Beispiele und Parameterdetails finden Sie in der Audio-Transcriptions-API.