Транскрибация аудио: Лучшие сервисы для расшифровки аудио в текст

Содержание

🗣️ Преобразование, транскрибация и расшифровка аудио в текст с помощью Python и Vosk. Перевод русской речи в текст оффлайн.

Продолжаем серию статей по практическому применению Python. Попробуем решить задачу транскрибации записи речи из аудио в текст. Это не rocket science 🙂 Такие задачи уже решаются продуктами на рынке и довольно неплохо (Сбер, Yandex). Моя цель – не конкурировать, а показать, что такие серьезные задачи можно начать решать с минимальным порогом входа: достаточно базовых знаний в программировании на Python.

Направление естественного анализа речи – целая область в NLP (Natural Language Processing). Дело в том, что компьютер очень быстро считает, но вот с пониманием смысла у него проблемы. Программа может быстро подсчитать количество слов в произведении «Война и мир», но с анализом смысла будут проблемы. А вот NLP пытается докопаться до смыслов.

Прежде чем анализировать речь, ее необходимо перевести в текст, а уже его подвергать анализу. Напрямую анализировать аудио – такого я не встречал (поправьте, если есть реализации, очень интересно посмотреть). В этой статье мы как раз займемся расшифровкой аудио в текст.

Для работы нам понадобится Python 3.8+, библиотека для распознавания речи – Vosk. Немного про библиотеку Vosk:

  • Поддерживает 20+ языков и диалектов.
  • Работает без доступа к сети даже на мобильных устройствах – Raspberry Pi, Android, iOS.
  • Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов.
  • Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды.
  • Поддерживает несколько популярных языков программирования – Java, C#, Javascript, Python.
  • Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания.
  • Позволяет идентифицировать говорящего.
  • Библиотека активно контрибьютится и поддерживается.

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека data scientist’а»

Интересно, перейти к каналу

Перевод аудио в текст

Чтобы реализовать транскрибацию из аудио в текст, нам необходимо решить следующие задачи:

  1. Вытащить части речи из аудио.
  2. Расставить пробелы на паузах между частями речи.
  3. Добавить пунктуацию в текст.

Все действия буду делать на машине с Ubuntu 20 (Python 3.8) со следующей конфигурацией:

  • CPU 2vCPU.
  • RAM 12GB.
  • HDD 20GB.

Причина использования такого количества RAM в том, что мы делаем распознавание на универсальной модели, то есть модели размером 50 Мб, которая требует в разы меньше оперативной памяти в работе, чем полноценная модель. Правда, качество распознавания в этом случае уменьшится.

Создаем директорию speech:

mkdir speech
cd speech
    

Далее необходимо поставить зависимости для Python:

apt install python3-pip
pip3 install ffmpeg
pip3 install pydub
pip3 install vosk
pip3 install torch
pip3 install transformers
    

Также скачиваем и распаковываем модель для распознавания русской речи, выполнив команды:

curl -o ./model.zip https://alphacephei.com/vosk/models/vosk-model-ru-0.22.zip
unzip model.zip
mv vosk-model-ru-0.22/ model
rm -rf model.zip
    

В результате этих действий мы скопировали к себе модель, разархивировали ее и переименовали директорию. Также удалили скачанный архив. Всё-таки он весит 1.5 Гб. Для расстановки пунктуации делаем похожие действия: скачиваем еще одну модель весом 1. 5 Гб.

curl -o recasepunc.zip https://alphacephei.com/vosk/models/vosk-recasepunc-ru-0.22.zip
unzip recasepunc.zip
mv vosk-recasepunc-ru-0.22/ recasepunc
rm -rf recasepunc.zip
    

Код файла app.py, который выполняет перевод аудио в текст.

from vosk import Model, KaldiRecognizer, SetLogLevel
from pydub import AudioSegment
import subprocess
import json
import os
SetLogLevel(0)
# Проверяем наличие модели
if not os.path.exists("model"):
    print ("Please download the model from https://alphacephei.com/vosk/models and unpack as 'model' in the current folder.")
    exit (1)
# Устанавливаем Frame Rate
FRAME_RATE = 16000
CHANNELS=1
model = Model("model")
rec = KaldiRecognizer(model, FRAME_RATE)
rec.SetWords(True)
# Используя библиотеку pydub делаем предобработку аудио
mp3 = AudioSegment.from_mp3('Song.mp3')
mp3 = mp3.set_channels(CHANNELS)
mp3 = mp3.set_frame_rate(FRAME_RATE)
# Преобразуем вывод в json
rec.AcceptWaveform(mp3. raw_data)
result = rec.Result()
text = json.loads(result)["text"]
# Добавляем пунктуацию
cased = subprocess.check_output('python3 recasepunc/recasepunc.py predict recasepunc/checkpoint', shell=True, text=True, input=text)
# Записываем результат в файл "data.txt"
with open('data.txt', 'w') as f:
    json.dump(cased, f, ensure_ascii=False, indent=4)
    

Последний штрих – разместить файл Song.mp3 в нашей директории с исполняемым файлом app.py. Затем запускаем app.py. В результате наша программа обработает файл .mp3 и на основе натренированных моделей из библиотеки Vosk сделает транскрибацию аудио в текст с сохранением результата в файл data.txt.

***

Наша реализация решает поставленные задачи в начале статьи. Но это скорее MVP, чем продуманное решение для продакшена. Если мы начнем углубляться, то перед нами встанут задачи обработки больших аудио (от часа и более), организации многопоточности, балансировки и горизонтального масштабирования и много чего интересного. Библиотека VOSK позволяет со всем этим справиться. Но это уже другая история 🙂

Материалы по теме

  • 📊 NLP и визуализация текста на примере твитов о президентских выборах в США
  • 🤖 Практическое руководство по NLP: изучаем классификацию текстов с помощью библиотеки fastText
  • Обзор четырёх популярных NLP-моделей 🙊 💬
  • NLP – это весело! Обработка естественного языка на Python

Автоматизация расшифровки (транскрибации) аудио — и видеозаписей

Друзья, недавно на сайте были опубликованы статьи, посвящённые голосовому вводу данных в среде Windows. В одной из статей мы рассматривали новую функцию англоязычного ввода данных голосом, которую в Windows 10 привнёс осенний накопительный апдейт Fall Creators Update. В другой был представлен обзор сторонних средств распознавания человеческой речи на русском языке. Эта публикация продолжает цикл статей, посвящённых теме голосового ввода данных в среде Windows, и в ней рассмотрим, как автоматизировать процесс расшифровки аудио- и видеозаписей в текст.

Итак, в упомянутых статьях сайта мы говорили о возможности набора текста с помощью голосового ввода. Несмотря на постоянное совершенствование технологий распознавания человеческой речи, всё равно, друзья, пока что в этом деле имеем ещё далёкий от идеала инструментарий. Отчасти он обусловлен сложностью самого русского языка. Языки с более простым построением языковой модели (с меньшим количеством словоформ) — например, английский, испанский, итальянский — искусственным интеллектом понимаются более корректно. И, соответственно, распознаются с меньшим числом ошибок. Так что какой бы инструмент голосового ввода на русском (или на другом славянском языке) ни использовался, в его результирующей форме всё равно придётся что-то править – корректировать окончания или даже слова целиком, ставить знаки препинания и т.п. И при больших объёмах набора текста голосом это становится проблемой. Не каждый сможет в едином процессе и надиктовывать свои мысли, и тут же попутно вносить в распознанный текст правки. Альтернатива в таком случае – разбивка процесса на два этапа: сначала свободное изложение мыслей на диктофон, а затем дальнейшая расшифровка аудиозаписи с помощью тех же инструментов распознавания человеческой речи. Ну и, естественно, попутная правка текста в результирующей форме.

Расшифровка видео и аудио с текстовой фиксацией разговоров участников записей называется транскрибацией. Транскрибация – ручной, очень трудоёмкий процесс. Транскрибатору необходимо поэтапно запоминать отрывки записи, приостанавливать воспроизведение и пропечатывать запомненное в текстовом редакторе. Это монотонная работа, которая требует максимальной концентрации внимания. Особенно если качество видео- или аудиоисходника оставляет желать лучшего. Но это если работать с расшифровкой разговоров других людей, записанных с помехами, тресками, слабым сигналом и т.п. С транскрибацией собственных диктовок, если они будут приемлемого качества записи, и если львиную долю работы по расшифровке возложить на искусственный интеллект, дела будут обстоять проще. Из ручной работы останется только коррекция текста.

Как сделать качественную аудиозапись? И как её потом транскрибировать в текст с помощью технологий распознавания речи?

Чтобы оцифровать свои мысли, не прибегая к активной печати на клавиатуре, потребуется надиктовать их в микрофон или проговорить на видеокамеру. Для этого можно использовать свой смартфон, а затем перенести файл аудио- или видеозаписи на компьютер. Аудиозапись диктовки также можно поручить любому устройству на базе Windows со встроенным или подключённым микрофоном. В числе штатных средств Windows 7 для этих целей имеется утилита «Звукозапись».

А на борту Windows 10 – штатное универсальное приложение «Запись голоса».

В «Десятке» ещё можно записывать и прослушивать голосовые заметки внутри приложения OneNote.

В любой из версий системы можно воспользоваться сторонними программами для записи звука с микрофона, например, функциональным аудиоредактором Audacity.

Не имеет значения, какой инструмент записи голоса вы, друзья, выберете. Это даже может быть не аудиозапись, а видео, записанное на веб-камеру или захваченное с экрана монитора. Лишь бы такое видео было со звуком. Важно другое — чтобы звук на выходе был более-менее чистым, без шумов и с приемлемым уровнем сигнала. Для этого перед аудио- или видеозаписью необходимо протестировать микрофон, в частности, чтобы найти приемлемое расстояние от рта. При необходимости можно усилить чувствительность микрофона: на компьютере это делается либо в программе, с помощью которой осуществляется аудиозапись или захват экрана монитора, либо в системных настройках звука. В последнем случае в области задач Windows кликаем правой клавишей мыши на значке громкости и выбираем «Записывающие устройства».

Далее делаем двойной клик по микрофону.

В открывшемся окошке его свойств переходим на вкладку «Уровни». Перетягивая ползунок графы «Усиление микрофона», добавляем дБ, жмём «Ок» и тестируем звукозапись.

Сначала усиливаем на 10 дБ. Если сигнал по-прежнему слабый, можно довести его до 20 дБ. Больше добавлять не нужно, при усилении до 30 дБ обычно появляются шумы.

Записываем диктовку и сохраняем её.

Для транскрибации записанной диктовки необходимо обмануть инструмент распознавания человеческой речи и подставить ему вместо звука с микрофона звучание аудио- или видеозаписи – т.е. системный звук, тот, что мы слышим из динамиков нашего компьютера. Сделать это можно с помощью стереомикшера. Как и при настройке микрофона, вызываем контекстное меню на значке громкости в области задач Windows. И выбираем «Записывающие устройства».

Далее контекстное меню вызываем на микрофоне и отключаем его.

А стереомикшер, наоборот, включаем. Жмём «Ок» внизу окошка.

Что делать, если стереомикшера среди записывающих устройств системы нет? Необходимо переустановить аудиодрайвер. Windows при автоматической установке драйверов часто обеспечивает только базовые функции звучания. И обновление или переустановка аудиодрайвера с помощью системного диспетчера устройств обычно ничего не даёт в этом плане. Нужно сначала удалить аудиодрайвер.  А затем отправиться на сайт материнской платы, ноутбука или дискретной аудиокарты, скачать инсталлятор аудиодрайвера и установить его.


В крайнем случае можно реализовать нечто стереомикшера с помощью

программы вирутального микрофона Virtual Audio Cable

. При установке здесь важно запускать программу от имени администратора, иначе она не установится. После установки настраиваем реализованное программой виртуальное устройство Cable Input в качестве динамиков по умолчанию и в качестве микрофона по умолчанию.


Итак, в системных настройках звука микрофон отключён, а стереомикшер включён. Дальше запускаем инструмент распознавания речи, например, веб-сервис Speechpad.Ru («Голосовой блокнот») и жмём кнопку «Включить запись».

Затем в любом плеере запускаем воспроизведение записанного на предыдущем этапе аудио или видео. Всё – процесс пошёл. Готовый текст будем наблюдать в результирующей форме. Воспроизведение диктовки необходимо периодически приостанавливать, чтобы корректировать отдельные блоки распознанного текста.

У Speechpad.Ru, кстати, есть альтернатива с более удачной реализацией результирующей формы распознанного текста. Это расширение для Chromium-браузеров «Войснот II».

Оно реализует в среде Windows отдельное Chrome-приложение по типу текстового редактора с поддержкой голосового ввода. В этом приложении можно хранить распознанный текст в качестве заметок, формировать словари для автозамены значений, настроить форматирование текста результирующей формы и пр. Активация распознавания голоса (или, как в нашем случае, системного звучания) в этом Chrome-приложении осуществляется кнопкой со значком микрофона.

Профессиональные услуги по расшифровке аудио | Rev.

Rev.com

Почему Rev?

Почему преподобный?

Узнайте, почему Rev является сервисом преобразования речи в текст №1 в мире. Почему Rev?

Цены

Рассчитайте, сколько стоит расшифровка, субтитры или субтитры вашего контента. Цены

Услуги

Услуги

Расшифровка

Услуги расшифровки, отвечающие потребностям всех проектов, больших и малых.

Подписи к видео и субтитры

Английские и переведенные субтитры на экране, которые помогут вам охватить более широкую аудиторию зрителей.

Обзор услуг

Просмотреть все службы преобразования речи в текст. Обзор служб

Бизнес-услуги

Для крупных организаций, использующих службы преобразования речи в текст в масштабе предприятия.

Решения

Промышленность

Узнайте, как организации по всему миру сотрудничают с Rev для использования услуг преобразования речи в текст.

Образование

Создайте лучший и более увлекательный опыт для каждого учащегося.Образование

Медиа и развлечения

Стенограммы и субтитры для улучшения рабочего процесса мультимедиа.Медиа и развлечения

Технологии

Легко интегрируйте Rev с помощью наших надежных API, чтобы быстро приступить к созданию своего продукта .Technology

Legal

Ведущая в отрасли точная юридическая транскрипция, чтобы вы не пропустили заявление. Legal

Примеры использования преобразования речи в текст

Откройте для себя преимущества сервисов преобразования речи в текст Rev.

Расширить охват контента

Расширить охват контента и повысить уровень вовлеченности. Расширить охват контента

Доступность диска

Сделайте ваш контент более доступным для людей с ограниченными возможностями. Доступность диска

Раскройте статистику

Расшифруйте свои аудиофайлы, чтобы найти важные аналитические данные за считанные минуты. Uncover Insights

Обзор решений

Лучшее решение для преобразования речи в текст для вашего бизнеса. Узнайте, как Rev вписывается в рабочий процесс вашего бизнеса. Обзор решений

Разработчики

Главная страница для разработчиков

Создавайте с помощью лучших API для преобразования речи в текст. Главная для разработчиков механизм распознавания. Асинхронный API

Streaming API

Прямая трансляция речи в текст для живых субтитров на основе ведущего в мире API распознавания речи. Streaming API

API транскрипции и субтитров

RESTFUL API для доступа к рабочей силе REV по быстрым, высококачественным транскрипционным транскрипциям и подписям. Транскрипция и подпись API

Ресурсы

Ресурсы

Электронные книги, Guides, и вебинары

Мобильные приложения и инструменты

Мобильные приложения и инструменты

Мобильные приложения и инструменты

.

Программа

Библиотека стенограмм

Стать фрилансером

Стать фрилансером и работать на своих условиях.Стать фрилансером

Истории клиентов

Oak National делает возможным обучение для миллионов британских студентов

Прочтите пример из практики Oak National Academy

Rev помогает Spotify предоставлять свежий контент по запросу, который любят пользователи

Настройтесь на историю Spotify

Rev помогает Sage Intacct Экономьте 5+ дней в квартал

Посмотрите веб-семинар Sage IntacctУзнайте все истории клиентов

Самые популярные статьи в блогах

Как транскрибировать аудио в текст

Как транскрибировать аудио в текст за три простых шага.

Прочитайте статью в блоге

Как транскрибировать голосовые заметки iPhone

Быстро расшифровывайте голосовые заметки iPhone с помощью профессиональных услуг транскрипции Rev.

Прочтите статью в блоге

Лучшие приложения для преобразования аудиофайлов в текст

Узнайте больше о лучших приложениях для преобразования аудиофайлов в текст.

Прочитать статью в блогеНайти другие блоги

Транскрипция

Транскрипция человека

Преобразование вашего аудио или видео в текст с точностью 99% с помощью профессионала за 1,50 доллара США в минуту. Транскрипция человека

Автоматическая транскрипция

Самая точная транскрипция на основе искусственного интеллекта на рынке всего за 0,25 доллара США в минуту.

Получите лучшую в своем классе точность, неограниченные стенограммы совещаний Zoom, настраиваемые глоссарии и многое другое за 29,99 долл. США в месяц. Подписка Rev Max — 14-дневная бесплатная пробная версия!

Подписи к видео и субтитры

Скрытые титры на английском языке

Субтитры на английском языке для видео на экране с точностью 99 %, всего 1,50 доллара США за минуту. Скрытые титры на английском языке

Global Translated Subtitles

99% точный перевод субтитров на экране для видео по цене $5-12 за минуту.

Обзор решений

Лучшее решение для преобразования речи в текст для вашего бизнеса. Узнайте, как Rev вписывается в рабочий процесс вашего бизнеса. Обзор решений ваш продукт или инструменты. API преобразования речи в текст

Связаться с отделом продаж

Готовы поговорить? Свяжитесь с нами, чтобы узнать больше о Rev for Business. Свяжитесь с отделом продаж

Узнайте больше о Enterprise

Преобразование аудио в текст — автоматическая транскрипция

Преобразование речи в текст. Автоматическая расшифровка аудио онлайн, в несколько кликов

Транскрипция аудио

Транскрипция речи в текст в несколько кликов

Есть ли аудиофайл, который нужно быстро расшифровать? Ручная расшифровка аудио может занять часы, если не дни для более длинных. Представьте, что вы печатаете слово в слово транскрипцию записи, песни или интервью. Это может быть очень болезненный процесс! Теперь вы можете использовать онлайн-инструмент, который автоматически расшифрует ваши аудиофайлы. Все, что вам нужно сделать, это загрузить аудио или видео, нажать на инструмент «Субтитры/Транскрипция», и VEED преобразует речь в текст для вас. VEED поддерживает MP3, WAV и другие популярные аудиоформаты. При необходимости отредактируйте или внесите небольшие изменения в транскрипцию. Затем вы можете загрузить файл TXT для любой цели, которую он может использовать. Вы можете скачать его в формате TXT, VTT или SRT. Нет необходимости использовать документ Word или Google Docs для ввода транскрипции. Это невероятно легко и быстро!

Как транскрибировать аудио в текст

Загрузить аудиофайл

Нажмите «Транскрибировать аудио» и выберите аудиофайл из ваших папок. Вы также можете перетащить файл в поле.

Транскрипция аудио

В левом меню нажмите «Субтитры», затем выберите «Автоматическая транскрипция». Выберите предпочитаемый язык и нажмите «Старт». VEED автоматически расшифрует аудио. Внесите изменения в транскрипцию, если хотите.

Скачать транскрипцию

Не закрывая страницу субтитров, нажмите «Параметры» и щелкните значок загрузки в разделе «Загрузить субтитры». Обязательно выберите формат, который вы предпочитаете. Вы можете загрузить файл TXT, VTT или SRT.

Учебное пособие «Транскрипция аудио в текст»

Загрузите файл транскрипции в несколько кликов

VEED займет всего несколько кликов, чтобы расшифровать аудио, после чего вы сможете загрузить файл транскрипции. После загрузки аудио перейдите к инструменту «Субтитры» и нажмите «Автоматическая расшифровка». Вы можете захотеть или вам нужно будет внести несколько незначительных правок в транскрипцию. Некоторые слова могут быть неточными на 100%, но это все же намного быстрее и проще по сравнению с тем, чтобы набирать всю транскрипцию самостоятельно. Когда вы довольны транскрипцией, вы можете загрузить файл TXT, VTT или SRT всего одним щелчком мыши!

Расшифровка и редактирование видео

Помимо аудиофайлов, вы также можете загружать видео, и VEED расшифрует исходный звук видео так же, как и для аудиофайла. Вы можете загрузить файл MP4, MOV, AVI, FLV и другие популярные форматы видео. VEED распознает аудиозапись видео и расшифрует ее для вас. Более того, VEED также позволяет редактировать видео. Это комплексное программное обеспечение для редактирования видео, которое позволяет применять видеофильтры и эффекты камеры. Вы можете добавлять изображения, подписи, смайлики и многое другое. Поворачивайте, обрезайте и изменяйте размер видео для разных платформ социальных сетей. Все, что вам нужно, всего в одном инструменте!

Доступная и надежная служба онлайн-транскрипции

VEED предлагает самую доступную онлайн-услугу транскрипции с непревзойденной точностью в своем ценовом диапазоне. Всего за 24 доллара в месяц за годовой план Pro вы получите доступ к неограниченному количеству загрузок транскрипций. Это идеально подходит для профессионалов, которым постоянно необходимо расшифровывать интервью, встречи или презентации по работе. Это невероятно доступное решение по сравнению с наймом профессионального расшифровщика! Вы можете посетить страницу с ценами VEED, чтобы увидеть больше вариантов.

Часто задаваемые вопросы

Открытие Подробнее:

  • Транскрипция диктов
  • M4A к тексту
  • MP3 в текст
  • Music Transcription
  • Transcribe Transcribe To Text
  • 33. 10224.
      2222222222222222222222.

    • . about VEED

      Подробнее о VEED

      • Как получить расшифровку видео на YouTube [быстро и просто]

        Самый простой способ получить расшифровку видео на YouTube, не прыгая через миллион обручей. Вот как.

      • Как скачать файлы субтитров SRT онлайн (быстро и просто)

        Хотите повысить вовлеченность, улучшить поисковую оптимизацию видео и сделать свой контент более инклюзивным? Вот как скачать и загрузить файлы SRT для вашего следующего видео!

      • 11 простых способов добавить музыку в видео [Пошаговое руководство]

        Не знаете, где найти музыку для видео, платную или бесплатную? Хотите узнать, как найти ее, выбрать нужную песню, а затем добавить ее в свой видеоконтент? Тогда копай!

      Больше, чем инструмент для преобразования аудио в текст

      VEED — это комплексное и невероятно простое в использовании программное обеспечение для редактирования видео, которое позволяет делать гораздо больше, чем просто транскрибировать аудиофайлы в текст.