Раньше для расшифровки аудио и видео приходилось слушать записи и набирать текст вручную. Сегодня с этим неплохо справляются сервисы на основе искусственного интеллекта и автоматические расшифровщики. В интернете таких транскрибаторов десятки, однако все они неравнозначны по функционалу и по качеству конечного результата.
Рассмотрим и протестируем пять популярных сервисов, которые предлагают разные инструменты распознавания текстов — как с помощью ИИ, так и посредством голосового ввода с микрофона.
Riverside.fm — англоязычный по интерфейсу ИИ-сервис, который позволяет полноценно работать с аудио и видео: расшифровывать записи, создавать субтитры, записывать голосовые, делать подкасты и записывать видео из браузера.
Для транскрибирования переходим на страницу https://riverside.fm/transcription. Чтобы начать расшифровку, не требуется даже регистрироваться — кликаем по кнопке «Transcribe now».
На появившемся в браузере дашборде либо перемещаем нужный файл из папки, либо загружаем через аплоуд-меню:
Сервис принимает только аудиофайлы в MP3, MP4 и видео формата MOV, WAV. После загрузки файла выбираем язык речи в аудио и отмечаем галочку в примитивной капче:
Если вы неправильно выберете язык, система Riverside.fm не сможет транскрибировать аудио, и придется начинать заново. Сам процесс загрузки и расшифровки довольно быстрый, но качество транскрибирования на русском не особо впечатляет, особенно, если сама запись неудовлетворительная:
При расшифровке сервис не разбивает диалог по репликам участников, поэтому его лучше использовать для монологов.
В бесплатной версии можно расшифровывать до 2 часов записей ежемесячно, с поддержкой качества видео до 720p и звука — 44,1 кГц. Ограничений по редактированию в браузере нет.
На платных тарифах Standard и Pro количество часов эфирного времени и возможности редактирования расширяются. А кастомное решение Business превращает Riverside.fm в браузерную студию по профессиональной обработке звука, видео, записи подкастов и так далее:
Riverside.fm можно использовать для расшифровки файлов формата MP3, MP4, однако качество текста на выходе весьма неоднозначно — его приходится дорабатывать вручную. С расшифровкой англоязычных текстов сервис, судя по отзывам, справляется гораздо лучше, но опять же — расстановку знаков препинания и смысловое акцентирование приходится выполнять самостоятельно.
Teamlogs — русскоязычный ИИ-сервис, который работает в любом браузере и позволяет не только транскрибировать тексты, но и обрабатывать их в онлайн-редакторе.
Для запуска расшифровки перемещаем нужный файл на рабочий стол или загружаем его из папки. На дашборде сразу выставляем количество спикеров и выбираем язык:
В бесплатном тестовом варианте Teamlogs транскрибирует до 15 минут. Скорость расшифровки хорошая: час записи преобразуется в печатный текст за 6 минут. После преобразования нажимаем на кнопку «Продолжить», на следующем шаге система просит авторизоваться — это можно сделать с помощью аккаунта Google или «Яндекс»:
Подтверждаем выполненный бесплатный заказ, после чего получаем готовый файл в визуальном редакторе:
Результат работы Teamlogs более чем удовлетворительный — при хорошем качестве слышимости сервис справляется с транскрибированием на 95%. Мелкие недочеты связаны со сложными для алгоритмического восприятия словами или редкими географическими названиями, именами. Также ИИ иногда ошибается с отдельной атрибуцией спикеров: некоторые слова приписывает не тому, кто говорит — это случается в оживленной, эмоциональной беседе с большим количеством участников.
В визуальном редакторе есть несколько интересных дополнительных инструментов. При клике на кнопку с волшебной палочкой «Создать с AI» открывается окно с опциями генерации конспекта, выделения ключевых слов и поручений. Под поручениями понимаются смысловые указания, которые AI обнаруживает и определяет во всем тексте — с этим справляется неплохо:
В боковом меню текстового редактора есть еще два инструмента — удаление абзаца и добавление реплики:
При клике на иконку карандаша возле каждого абзаца всплывает меню, с помощью которого можно поменять спикера той или иной реплики.
Таким образом визуальный редактор Teamlogs становится удобным полноценным инструментом быстрого редактирования в готовой расшифровке.
При клике на иконку «Скачать стенограмму» появляется меню экспорта текста. Здесь выставляем формат скачивания и активируем все необходимые опции конечного вида текста:
После того как закончится 15 бесплатных минут тестового периода, можно «пополнить» минуты за деньги. Вариантов пополнения в специальном разделе немало: чем больше оплачиваешь, тем выше единоразовая скидка.
Оплатить с российской карты можно как частнику, ИП или юридическому лицу со своего счета:
В целом, Teamlogs — удобный, многофункциональный сервис с адекватным транскрибированием и возможностью быстрого редактирования текста в браузере. Основное преимущество программы в разнообразии инструментов доработки текста в визуальном редакторе.
Transcribe — сервис, который расшифровывает речь с микрофона, транскрибирует загруженные файлы, а также преобразует в текст разговорные ролики с YouTube.
Несмотря на англоязычный интерфейс сам сервис при переводе поддерживает русский язык.
Возможности Transcribe:
Для работы в Transcribe регистрируемся через меню «Sigh up» — заполняем стандартную информацию: имя пользователя, почту, выбираем индивидуальный тип лицензии.
После авторизации система сообщает о запуске триальной версии в течение недели — теперь можно приступать к транскрибированию.
После клика по кнопке «Start new transcription» система перебрасывает на дашборд, где можно выбрать два варианта: «Automatic Transcription» и «Self Transcription». В первом случае с транскрибированием помогает ИИ-алгоритм, при выборе второго варианта предлагается расшифровать текст самостоятельно в удобном редакторе:
При автоматическом транскрибировании в настройках выставляем русский язык исходника и ставим галочки в нужных опциях настроек. Среди них — выставление таймкодов, указание количества участников беседы, подгрузка субтитров, добавление тэгов и разбивка записи на фрагменты. Также есть инструмент для формирования собственного словаря для упрощения работы алгоритма.
К сожалению, в триальной версии расшифровать всю запись не получится — Transcribe устанавливает ограничение на транскрибирование не более одной минуты. Обойти ограничение помогает настройка «Transcribe a portion of the file», с помощью которой можно разбить разговор на части — по одной минуте каждой по выставленным таймкодам:
В триале дается 30 минут на расшифровки минутных фрагментов загруженной записи. В полноценной версии ограничение на загружаемые файлы в 420 минут или на 6 Гб по размеру:
По качеству расшифровки сервис соответствует заявленному разработчиками качеству в 90% чистоты. То есть неплохо транскрибирует ясную, четкую речь, но начинает «плыть» при сомнительных, двояко трактуемых словах или «проглатываемых» людьми звуках.
Если в настройках не выставлено количество участников, то Transcribe выдает общий поток речевого сознания, который приходится корректировать вручную:
На дашборде с результатом расшифровки есть дополнительные инструменты в правой части экрана:
В режиме визуального редактора появляется также команда «Dictate». с помощью нее можно надиктовывать текст — качество распознавания голоса с микрофона хорошее.
После окончания триала сервис требует подключения к платному тарифу, цена которого — $20 в год, эти деньги снимают все ограничения по использованию. Подключение к кастомному плану позволяет работать с Transcribe коллективно, а также предоставляет 100 часов на расшифровки:
Transcribe — сервис неплохой, удобный, с простым и понятным интерфейсом визуального редактора. Единственный значимый минус в том, что оплатить полный функционал с российской карты не получится, потребуется расходник.
Speechpad позиционирует себя в качестве условно-бесплатного онлайн-блокнота для расшифровки голосового набора, однако в инструментах есть и опция расшифровки аудиозаписи в текст.
Страница сервиса по дизайну напоминает сайты нулевых годов. Но это не главное — важнее работоспособность и адекватность расшифровки, хотя и с этим у сервиса все неоднозначно.
В нижней части экрана располагается визуальный редактор, в нем и ведется работа:
Для транскрибации кликаем по кнопке «+Транскрибация», появляется специальная панель:
На ней расположены все необходимые инструменты: помимо полей загрузки есть защита от шумов, выставление меток времени, шаг перемотки записи и скорость воспроизведения.
Качество расшифровки в Speechpad зависит от уровня распознавания через микрофон проговариваемого в динамиках текста — оно не может быть идеальным на 100%.
Сервис дает 15 минут на бесплатную расшифровку вне зависимости от голосового ввода или распознавания из загруженного файла через микрофон. Чтобы продолжать работу в сервисе нужно оплатить подключение расширенных возможностей:
По пятибалльной системе качество транскрибирования можно оценить на три балла.
Автоматически текст сервис не распознает, в этом его существенный недостаток. Speechpad лучше справляется с распознаванием наговариваемого голосом текста — так качество значительно лучше.
Преимущество Speechpad в низких расценках на использование — это один из самых дешевых сервисов, работающих с расшифровкой на разных языках.
RealSpeaker — еще один русскоязычный сервис для перевода аудио в текст, который работает только с файлами, без голосового ввода через микрофон.
Сервис очень прост в обращении, работа в браузере ведется в три шага. Первым делом выбираем язык транскрибации и нажимаем кнопку «Продолжить». На втором шаге заливаем файл на дашборд, после чего система перекидывает в раздел «Мои медиа», где транскрибируются загруженные записи. Тут же RealSpeaker показывает расчетное время расшифровки: сервис работает быстро — на две минуты файла обычно уходит не более 30 секунд.
В меню расшифровки отображаются файлы всех пользователей, кто решил попробовать RealSpeaker, причем показаны как расшифрованные записи, так и те, что были залиты без последующей транскрибации.
Качество расшифровки, к сожалению, оставляет желать лучшего. Даже при хорошей слышимости речи RealSpeaker выдает очень приблизительный текст, который требует серьезной ручной доработки в редакторе:
Для расшифровки файлов длиннее 1,5 минуты придется оплатить работу сервиса. При попытке транскрибации объемных записей система сама перекидывает в окно оплаты с автоматически рассчитанной стоимостью — минута расшифровки стоит 15 рублей:
Преимущество RealSpeaker в его простоте и скорости расшифровки, однако результаты транскрибирования довольно неоднозначны. Дорабатывать текст приходится самостоятельно — это касается не только расстановки знаков препинания и акцентирования речи в диалоге, но и замены слов на русские в тех местах, где сервис их не распознал.
К минусам относится и то, что записи, загруженные для расшифровки всеми пользователями, в течение 24 видны и доступны для прослушивания всем, кто решил воспользоваться RealSpeaker.
Сервис «Писец» — русскоязычный переводчик аудио- и видеофайлов в текст с разбивкой на спикеров и расстановкой тайм-кодов.
Транскрибатор прост в управлении: на главной странице загружаем через соответствующее меню файл, указываем почту, куда придет результат. а также устанавливаем язык записи и количество спикеров. После чего ожидаем загрузки файла:
Уведомление об успешной загрузке приходит на указанную почту. Через пару минут на почту в формате .txt приходит и файл с расшифровкой:
Качество расшифровки даже при хорошем звуке можно оценить на 90%. «Писец» неплохо справляется с общим потоком речи, хотя есть мелкие недочеты. При этом разбивка на спикеров работает посредственно — дорабатывать текст приходится вручную. Знаки препинания тоже далеко не всегда расставлены верно.
Трнаскрибатор условно-бесплатный: 30 минут записи можно расшифровывать без оплаты. После этого по умолчанию включается бесплатный тариф с рядом ограничений:
Для получения расширенных возможностей «Писец» придется оплатить. Для физических лиц есть несколько тарифов:
Для юридических лиц у транскрибатора есть особые условия: корпоративный аккаунт, развертывание сервиса на собственных серверах, API-интеграции, выделенная поддержка. При этом действует поминутная тарификация, стоимость которой рассчитывается на отдельной странице.
«Писец» можно использовать для расшифровки получасовых записей, используя разные почты для получения результата. Готовый текст при этом все равно придется дорабатывать: расставлять знаки препинания и уточнять реплики разных спикеров.
Несмотря на то, что в последние годы появилось множество разных сервисов для автоматической обработки аудио, на 100% работоспособной, безукоризненно переводящей речь в текст нету.
Однако среди популярных программ есть несколько сервисов, которые справляются с поставленной целью довольно неплохо. Среди протестированных в рамках обзора это — Teamlogs и Transcribe, универсальные расшифровщики, которые можно использовать даже в бесплатном триале. В платной версии лучше использовать Teamlogs: при относительной дешевизне он с задачами расшифровки аудио справляется хорошо.