Распознавание речи (STT)
Генерация (результаты)
Распознавание речи (STT)
Транскрибация аудиофайлов с помощью Whisper, GPT-4o Transcribe или ElevenLabs Scribe
POST
Распознавание речи (STT)
STT использует отдельный multipart-эндпоинт
POST /api/v2/stt, не стандартный /generate.Запрос
Authorization: Bearer nb_ВАШ_КЛЮЧАудиофайл. Форматы:
mp3, mp4, wav, m4a, ogg, flac, webm. Макс. размер: 25 МБ.Слаг STT-модели. См. таблицу ниже.
Код языка (например
ru, en, es). Необязательно — определяется автоматически.Диаризация (разметка по спикерам). Только для
elevenlabs-scribe.Модели
| Slug | Провайдер | Тариф | Ткн | Особенности |
|---|---|---|---|---|
whisper | OpenAI | Starter | 2 | Быстро, 99 языков |
gpt-4o-transcribe | OpenAI | Basic+ | 2 | Наивысшая точность |
elevenlabs-scribe | ElevenLabs | Basic+ | 2 | Лучший для встреч, диаризация |
Ответ
Диаризация
Только сelevenlabs-scribe:
result_text будут метки спикеров:

