메인 콘텐츠로 건너뛰기
Loading models…

사용법

Speech-to-text 모델은 음성 오디오를 텍스트로 전사합니다. Audio Transcriptions API를 통해 액세스할 수 있습니다.

지원되는 오디오 형식

mp3, mp4, mpeg, mpga, m4a, wav, webm, flac, ogg

응답 형식

형식설명
json기본값. { "text": "..." }를 반환합니다.
text일반 전사 텍스트.
srt타임스탬프가 포함된 SubRip 자막 형식.
vtt타임스탬프가 포함된 WebVTT 자막 형식.
verbose_json세그먼트 수준 타임스탬프와 메타데이터가 포함된 전체 응답.
가격은 입력 오디오의 초당 청구됩니다. 요청 예제와 매개변수 세부 정보는 Audio Transcriptions API를 참조하세요.