24 июня 0 5293

Расшифровка: тестируем пять сервисов по переводу аудиофайлов в текст

Раньше для расшифровки аудио и видео приходилось слушать записи и набирать текст вручную. Сегодня с этим неплохо справляются сервисы на основе искусственного интеллекта и автоматические расшифровщики. В интернете таких транскрибаторов десятки, однако все они неравнозначны по функционалу и по качеству конечного результата.

Рассмотрим и протестируем пять популярных сервисов, которые предлагают разные инструменты распознавания текстов — как с помощью ИИ, так и посредством голосового ввода с микрофона.

Riverside.fm

Riverside.fm — англоязычный по интерфейсу ИИ-сервис, который позволяет полноценно работать с аудио и видео: расшифровывать записи, создавать субтитры, записывать голосовые, делать подкасты и записывать видео из браузера.

Возможности Riverside.fm:

  • Поддержка разных языков — английского, русского и более 100 языков мира;
  • Расшифровка и транскрибация в реальном времени;
  • Редактирование готовых текстов;
  • Поддержка разных форматов — голосовой ввод и файлы MP3, MP4, MOV, WAV;
  • Экспорт текстов в .txt.

Как работать с Riverside.fm

Для транскрибирования переходим на страницу https://riverside.fm/transcription. Чтобы начать расшифровку, не требуется даже регистрироваться — кликаем по кнопке «Transcribe now».

На появившемся в браузере дашборде либо перемещаем нужный файл из папки, либо загружаем через аплоуд-меню:

Сервис принимает только аудиофайлы в MP3, MP4 и видео формата MOV, WAV. После загрузки файла выбираем язык речи в аудио и отмечаем галочку в примитивной капче:

Если вы неправильно выберете язык, система Riverside.fm не сможет транскрибировать аудио, и придется начинать заново. Сам процесс загрузки и расшифровки довольно быстрый, но качество транскрибирования на русском не особо впечатляет, особенно, если сама запись неудовлетворительная:

При расшифровке сервис не разбивает диалог по репликам участников, поэтому его лучше использовать для монологов.

Стоимость Riverside.fm

В бесплатной версии можно расшифровывать до 2 часов записей ежемесячно, с поддержкой качества видео до 720p и звука — 44,1 кГц. Ограничений по редактированию в браузере нет.

На платных тарифах Standard и Pro количество часов эфирного времени и возможности редактирования расширяются. А кастомное решение Business превращает Riverside.fm в браузерную студию по профессиональной обработке звука, видео, записи подкастов и так далее:

Riverside.fm можно использовать для расшифровки файлов формата MP3, MP4, однако качество текста на выходе весьма неоднозначно — его приходится дорабатывать вручную. С расшифровкой англоязычных текстов сервис, судя по отзывам, справляется гораздо лучше, но опять же — расстановку знаков препинания и смысловое акцентирование приходится выполнять самостоятельно.

Teamlogs

Teamlogs — русскоязычный ИИ-сервис, который работает в любом браузере и позволяет не только транскрибировать тексты, но и обрабатывать их в онлайн-редакторе.

Возможности сервиса:

  • Транскрибирование аудио- и видеозаписей;
  • Мультиязычность: расшифровка на русском и английском языке;
  • Поддержка большого количества форматов. Для аудио — M4A, MP3, OGG, WAV, AAC, WMA, FLAC, для видео — MP4, MKV, AVI, FLV, MOV, WMV;
  • Автоматическая расстановка знаков препинания;
  • Встроенный онлайн-редактор;
  • Разделение в готовом тексте на реплики спикеров;
  • Автогенерация краткого содержания записи;
  • Экспорт расшифровки в форматах *.docx, *.srt и *.xlsx.

Как работать с Teamlogs

Для запуска расшифровки перемещаем нужный файл на рабочий стол или загружаем его из папки. На дашборде сразу выставляем количество спикеров и выбираем язык:

В бесплатном тестовом варианте Teamlogs транскрибирует до 15 минут. Скорость расшифровки хорошая: час записи преобразуется в печатный текст за 6 минут. После преобразования нажимаем на кнопку «Продолжить», на следующем шаге система просит авторизоваться — это можно сделать с помощью аккаунта Google или «Яндекс»:

Подтверждаем выполненный бесплатный заказ, после чего получаем готовый файл в визуальном редакторе:

Результат работы Teamlogs более чем удовлетворительный — при хорошем качестве слышимости сервис справляется с транскрибированием на 95%. Мелкие недочеты связаны со сложными для алгоритмического восприятия словами или редкими географическими названиями, именами. Также ИИ иногда ошибается с отдельной атрибуцией спикеров: некоторые слова приписывает не тому, кто говорит — это случается в оживленной, эмоциональной беседе с большим количеством участников.

В визуальном редакторе есть несколько интересных дополнительных инструментов. При клике на кнопку с волшебной палочкой «Создать с AI» открывается окно с опциями генерации конспекта, выделения ключевых слов и поручений. Под поручениями понимаются смысловые указания, которые AI обнаруживает и определяет во всем тексте — с этим справляется неплохо:

В боковом меню текстового редактора есть еще два инструмента — удаление абзаца и добавление реплики:

При клике на иконку карандаша возле каждого абзаца всплывает меню, с помощью которого можно поменять спикера той или иной реплики.

Таким образом визуальный редактор Teamlogs становится удобным полноценным инструментом быстрого редактирования в готовой расшифровке.

При клике на иконку «Скачать стенограмму» появляется меню экспорта текста. Здесь выставляем формат скачивания и активируем все необходимые опции конечного вида текста:

Самые высокие ставки по RU, BY, KZ от прямого рекламодателя FONBET PARTNERS! К заливам!

Стоимость Teamlogs

После того как закончится 15 бесплатных минут тестового периода, можно «пополнить» минуты за деньги. Вариантов пополнения в специальном разделе немало: чем больше оплачиваешь, тем выше единоразовая скидка.

Оплатить с российской карты можно как частнику, ИП или юридическому лицу со своего счета:

В целом, Teamlogs — удобный, многофункциональный сервис с адекватным транскрибированием и возможностью быстрого редактирования текста в браузере. Основное преимущество программы в разнообразии инструментов доработки текста в визуальном редакторе.

Transcribe

Transcribe — сервис, который расшифровывает речь с микрофона, транскрибирует загруженные файлы, а также преобразует в текст разговорные ролики с YouTube.

Несмотря на англоязычный интерфейс сам сервис при переводе поддерживает русский язык.

Возможности Transcribe:

  • Большое количество языков для перевода — более 80-ти;
  • Удобный встроенный редактор с полезными инструментами: замедлением прослушиваемых файлов, расстановкой меток и так далее;
  • Автоматическое сохранение результатов при работе оффлайн;
  • Возможность загрузки файлов с ПК, из Google Диска, Dropbox, OneDrive или добавление по ссылке;
  • Поддержка различных форматов — 3GP, CAF, DSS, FLAC, WEBM, WMA, WMV.

Как работать с Transcribe

Для работы в Transcribe регистрируемся через меню «Sigh up» — заполняем стандартную информацию: имя пользователя, почту, выбираем индивидуальный тип лицензии.

После авторизации система сообщает о запуске триальной версии в течение недели — теперь можно приступать к транскрибированию.

После клика по кнопке «Start new transcription» система перебрасывает на дашборд, где можно выбрать два варианта: «Automatic Transcription» и «Self Transcription». В первом случае с транскрибированием помогает ИИ-алгоритм, при выборе второго варианта предлагается расшифровать текст самостоятельно в удобном редакторе:

При автоматическом транскрибировании в настройках выставляем русский язык исходника и ставим галочки в нужных опциях настроек. Среди них — выставление таймкодов, указание количества участников беседы, подгрузка субтитров, добавление тэгов и разбивка записи на фрагменты. Также есть инструмент для формирования собственного словаря для упрощения работы алгоритма.

К сожалению, в триальной версии расшифровать всю запись не получится — Transcribe устанавливает ограничение на транскрибирование не более одной минуты. Обойти ограничение помогает настройка «Transcribe a portion of the file», с помощью которой можно разбить разговор на части — по одной минуте каждой по выставленным таймкодам:

В триале дается 30 минут на расшифровки минутных фрагментов загруженной записи. В полноценной версии ограничение на загружаемые файлы в 420 минут или на 6 Гб по размеру:

По качеству расшифровки сервис соответствует заявленному разработчиками качеству в 90% чистоты. То есть неплохо транскрибирует ясную, четкую речь, но начинает «плыть» при сомнительных, двояко трактуемых словах или «проглатываемых» людьми звуках.

Если в настройках не выставлено количество участников, то Transcribe выдает общий поток речевого сознания, который приходится корректировать вручную:

На дашборде с результатом расшифровки есть дополнительные инструменты в правой части экрана:

  • «Edit transcript» — отдельный редактор, где текст можно поправить или просто скопировать;
  • «Export transcript» — экспорт стенограммы, файл скачивается формате txt;
  • «Change Timecode Frequency» — меню для изменения таймкодов;
  • «Change Subtitle Formatting» — меню для изменения субтитров.

В режиме визуального редактора появляется также команда «Dictate». с помощью нее можно надиктовывать текст — качество распознавания голоса с микрофона хорошее.

Стоимость Transcribe

После окончания триала сервис требует подключения к платному тарифу, цена которого — $20 в год, эти деньги снимают все ограничения по использованию. Подключение к кастомному плану позволяет работать с Transcribe коллективно, а также предоставляет 100 часов на расшифровки:

Transcribe — сервис неплохой, удобный, с простым и понятным интерфейсом визуального редактора. Единственный значимый минус в том, что оплатить полный функционал с российской карты не получится, потребуется расходник.

Speechpad

Speechpad позиционирует себя в качестве условно-бесплатного онлайн-блокнота для расшифровки голосового набора, однако в инструментах есть и опция расшифровки аудиозаписи в текст.

Возможности Speechpad

  • Многоязычный голосовой ввод — сервис распознает языки большинства стран бывшего СССР, а также расшифровывает английский, французский, немецкий, испанский и итальянский;
  • Интеграции с системами Windows, Mac и Linux для голосового ввода в приложениях ОС и в браузерах;
  • Установка специального Chrome-приложения для запуска блокнота с предустановленными параметрами;
  • Поддержка видео Youtube и HTML5;
  • Защита от шумов.

Как работать в Speechpad

Страница сервиса по дизайну напоминает сайты нулевых годов. Но это не главное — важнее работоспособность и адекватность расшифровки, хотя и с этим у сервиса все неоднозначно.

В нижней части экрана располагается визуальный редактор, в нем и ведется работа:

Декабрьские ивенты от Партнеркина: мастер-класс по гольфу и турнир по падел-теннису на Бали

Для транскрибации кликаем по кнопке «+Транскрибация», появляется специальная панель:

На ней расположены все необходимые инструменты: помимо полей загрузки есть защита от шумов, выставление меток времени, шаг перемотки записи и скорость воспроизведения.

Качество расшифровки в Speechpad зависит от уровня распознавания через микрофон проговариваемого в динамиках текста — оно не может быть идеальным на 100%.

Стоимость Speechpad

Сервис дает 15 минут на бесплатную расшифровку вне зависимости от голосового ввода или распознавания из загруженного файла через микрофон. Чтобы продолжать работу в сервисе нужно оплатить подключение расширенных возможностей:

По пятибалльной системе качество транскрибирования можно оценить на три балла.

Автоматически текст сервис не распознает, в этом его существенный недостаток. Speechpad лучше справляется с распознаванием наговариваемого голосом текста — так качество значительно лучше.

Преимущество Speechpad в низких расценках на использование — это один из самых дешевых сервисов, работающих с расшифровкой на разных языках.

RealSpeaker

RealSpeaker — еще один русскоязычный сервис для перевода аудио в текст, который работает только с файлами, без голосового ввода через микрофон.

Возможности RealSpeaker

  • Мультиязычность — сервис распознает 39 языков;
  • Распознавание как аудио, так и видео;
  • Максимальная длительность файлов 180 минут, в бесплатной версии — не более 1,5 минуты;
  • Встроенный текстовый редактор;
  • Добавление субтитров в формате SRT или VTT.

Как работать с RealSpeaker

Сервис очень прост в обращении, работа в браузере ведется в три шага. Первым делом выбираем язык транскрибации и нажимаем кнопку «Продолжить». На втором шаге заливаем файл на дашборд, после чего система перекидывает в раздел «Мои медиа», где транскрибируются загруженные записи. Тут же RealSpeaker показывает расчетное время расшифровки: сервис работает быстро — на две минуты файла обычно уходит не более 30 секунд.

В меню расшифровки отображаются файлы всех пользователей, кто решил попробовать RealSpeaker, причем показаны как расшифрованные записи, так и те, что были залиты без последующей транскрибации.

Качество расшифровки, к сожалению, оставляет желать лучшего. Даже при хорошей слышимости речи RealSpeaker выдает очень приблизительный текст, который требует серьезной ручной доработки в редакторе:

Стоимость RealSpeaker

Для расшифровки файлов длиннее 1,5 минуты придется оплатить работу сервиса. При попытке транскрибации объемных записей система сама перекидывает в окно оплаты с автоматически рассчитанной стоимостью — минута расшифровки стоит 15 рублей:

Преимущество RealSpeaker в его простоте и скорости расшифровки, однако результаты транскрибирования довольно неоднозначны. Дорабатывать текст приходится самостоятельно — это касается не только расстановки знаков препинания и акцентирования речи в диалоге, но и замены слов на русские в тех местах, где сервис их не распознал.

К минусам относится и то, что записи, загруженные для расшифровки всеми пользователями, в течение 24 видны и доступны для прослушивания всем, кто решил воспользоваться RealSpeaker.

Писец

Сервис «Писец» — русскоязычный переводчик аудио- и видеофайлов в текст с разбивкой на спикеров и расстановкой тайм-кодов.

Возможности сервиса «Писец»:

  • Расшифровка с двух языков — русского и английского;
  • Поддержка различных форматов: WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3, FLAC и других;
  • Разделение готового текста на абзацы и знаки препинания;
  • Распознавание в записи до 5 спикеров;
  • Параллельная расшифровка нескольких файлов;
  • Техподдержка через Telegram.

Как работать с сервисом «Писец»

Транскрибатор прост в управлении: на главной странице загружаем через соответствующее меню файл, указываем почту, куда придет результат. а также устанавливаем язык записи и количество спикеров. После чего ожидаем загрузки файла:

Уведомление об успешной загрузке приходит на указанную почту. Через пару минут на почту в формате .txt приходит и файл с расшифровкой:

Качество расшифровки даже при хорошем звуке можно оценить на 90%. «Писец» неплохо справляется с общим потоком речи, хотя есть мелкие недочеты. При этом разбивка на спикеров работает посредственно — дорабатывать текст приходится вручную. Знаки препинания тоже далеко не всегда расставлены верно.

Стоимость сервиса «Писец»

Трнаскрибатор условно-бесплатный: 30 минут записи можно расшифровывать без оплаты. После этого по умолчанию включается бесплатный тариф с рядом ограничений:

  • Поочередная расшифровка при загрузке нескольких записей.
  • Уменьшенная скорость — транскрибация может занимать до 72 часов работы, так как сервис работает в порядке живой очереди.
  • Ограничение в 30 минут транскрибируемой записи.

Для получения расширенных возможностей «Писец» придется оплатить. Для физических лиц есть несколько тарифов:

Для юридических лиц у транскрибатора есть особые условия: корпоративный аккаунт, развертывание сервиса на собственных серверах, API-интеграции, выделенная поддержка. При этом действует поминутная тарификация, стоимость которой рассчитывается на отдельной странице.

Взлеты и падения на MAP — Паша Панин о том, что учесть перед организацией конференции

«Писец» можно использовать для расшифровки получасовых записей, используя разные почты для получения результата. Готовый текст при этом все равно придется дорабатывать: расставлять знаки препинания и уточнять реплики разных спикеров.

Выводы

Несмотря на то, что в последние годы появилось множество разных сервисов для автоматической обработки аудио, на 100% работоспособной, безукоризненно переводящей речь в текст нету.

Однако среди популярных программ есть несколько сервисов, которые справляются с поставленной целью довольно неплохо. Среди протестированных в рамках обзора это — Teamlogs и Transcribe, универсальные расшифровщики, которые можно использовать даже в бесплатном триале. В платной версии лучше использовать Teamlogs: при относительной дешевизне он с задачами расшифровки аудио справляется хорошо.

Как вам статья?
ПОЛУЧИТЬ АКТУАЛЬНУЮ ПОДБОРКУ КЕЙСОВ

Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900 ₽.

Партнеркин рекомендует
Партнерки
1win Partners
Топовая беттинг и гемблинг партнерка
TRAFORCE
Дейтинговая СPA-сеть
Affiliate Top
Надежная партнерка по бинарным опционам
Сервисы
Dolphin{anty}
Лучший антидетект браузер
PARTNERKIN
20%
FlexСard
Виртуальные карты для арбитража трафика
PARTNERKIN
Карты free
AdPlexity
Мониторинг мобильной, десктоп и нативной рекламы
partnerkin_m
25%


Новейший Linken Sphere 2 бесплатно