Что значит расшифровать аудиозапись
Как превратить голос в текст: тестируем 5 сервисов для расшифровки
Я работаю с текстом и мечтаю о программе, которая сможет превратить голос в напечатанные слова.
Например, расшифрует за меня интервью длиной в несколько часов. Или позволит наговорить идеи, а в ответ пришлет заметку. Наконец, «напишет» за меня смс: поймет несколько обрывистых фраз и отправит адресату текст — потому что голосовые сообщения любят не все.
Я протестировал 5 таких сервисов: наговорил один и тот же текст, а потом сравнил результаты. Я использовал два способа: сначала давал программе послушать и расшифровать живой голос, а потом — в записи.
Текст для теста
Вот текст для теста: «Привет. Это тестовая запись для статьи об инструментах, которые умеют превращать голос в текст. Как думаете, этот сервис справится? Распознает интонацию вопроса и, например, числа — один, два, три? Вот что получилось».
Google Keep
Где работает: Android, iOS
Сколько стоит: бесплатно
Что умеет. Это приложение для создания и хранения заметок можно использовать как расшифровщик. Если на главном экране нажать на иконку микрофона и начать говорить, то сервис будет переводить звук в текст — это называется транскрибацией. Загрузить и расшифровать аудиофайл не получится.
У сервиса есть еще один минус: запись останавливается, если молчать две-три секунды, поэтому расшифровывать длинные интервью не получится. Разве что делать это небольшими кусками. Наговорить несколько идей и получить их в блокноте получится отлично.
Результат. Я проверил два способа: наговорил текст самостоятельно и включил запись того же текста через колонку — никакой разницы нет. Вышло хорошо: сервис не распознал только знаки препинания и напечатал числа без пробелов.
Сообщения «Вконтакте»
Где работает: Android, iOS
Сколько стоит: бесплатно
Что умеет. В мобильном приложении соцсеть умеет расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе.
Для этого зайдите в раздел с диалогами и в поисковом окне вбейте свое имя. Дальше зажмите значок микрофона и наговорите сообщение. Когда оно появится в диалоговом окне, нажмите на «Аа» справа от записи.
Результат. «Вконтакте» расшифровал живой голос с ошибками в склонениях и перепутал несколько слов: например, «сервис» услышал как «серый». Но справился с числами. Записанный и пропущенный через колонку голос сервис расшифровал намного хуже — получился набор слов, который нужно буквально переписывать.
Расшифровка аудио в текст как можно заработать
Расшифровка аудио в текст
В данной статье я расскажу вам о таком виде заработка, как расшифровка аудио в текст, это работа фрилансерская. Ее второе название транскрибация. Человека же, переводящего звук в текстовую запись в текстовую, называют — транскрибером.
Кому же может понадобиться расшифровка аудио
В подобных ситуациях транскрибер идет им на выручку (за оплату, само собой). И производит расшифровку аудио и видео записей в текстовую.
Число запросов в поисковики на эту тему постоянно увеличивается. Вывод: данная профессия в последнее время все более популярна. Давайте отвлечемся на минутку: если у вас свой сайт, вы легко сможете получить бесплатные ссылки, зайдя на пост по этой ссылочке.
Расшифровка аудио в текст — это легко
Многим кажется, что это довольно легкая работа. Что тут делать? Сидеть, слушать и печатать. Зачем здесь думать?
Но, увы, это не так легко. Данная задача станет легкой, если вам предоставят звуковую запись, на которой диктор профи отлично поставленным голосом и отличной интонацией прочтет вам текст. В реальной жизни это не встречается.
В реальности нужно расшифровать запись переговоров множества людей. Они постоянно разговаривают, перебивая собеседников, говорят отрывисто и неразборчиво. Также, по голосам нужно понять, кто именно говорит и привести их диалог в порядок.
Если говори один человек, голос его может быть невнятным, тихим, шепелявым и пр. Могут доноситься прочие шумы. Все это усложняет работу транскрибера.
Заказчик же хочет получить заказ как можно быстрее. В иных случаях действительно, вам будет предоставлено достаточно времени, но иногда, особенно для журналистов, все нужно сделать довольно быстро, часа через три после эфира. В этой ситуации у вас мало времени.
Например: сейчас транскриберу потребуется расшифровка аудио заседания суда, к утру, тренинг по инфобизнесу. У всех свой проф. жаргон, термины, тематика, аббревиатура. Учтите все это во время расшифровке. Отсюда, у вас должна быть отменная эрудиция. Вы должны отлично обращаться со словарем.
Что должен уметь транскрибатор
Какими свойствами он должен обладать, для выполнения подобной работы? Я вам представлю часть требований к расшифровщикам одного из агенств.
Как вам требования к расшифровщику? Согласитесь, не каждый справится!
Как расшифровщику найти заказы
Данные заказы можно искать при помощи фрилансерских бирж. Также, можете напрямик обратиться в агентства, ищущие услуги транскриберов. Введите в поисковую строку, к примеру «расшифровка аудио», «услуги транскрибатора» и прочее. Вы увидите достаточно фирм, занимающихся подобной деятельностью.
Зайдите на сайты различных телекомпаний и просмотрите вакансии. Поищите вакансии в среде инфобизнесменов и авторов лекций.
Расшифровка аудио каким может быть заработок
Миллионы при данном заработке не заработать. Цена транскрибации начинается от пяти руб./мин. звучания. Но, это начальная цена, есть агенства, предлагающие в два, и в три раза больше.
В основном, стоимость расшифровки зависит от качества материала. При сложных записях (плохое качество, много технических терминов, много голосов) стоимость растет. При владении иностранными языками, перевод иностранной речи в текстовую запись может принести от ста руб./мин звука.
ВАЖНО! Мы говорим про время звучания звукового файла. Какое количество времени потребуется, чтобы расшифровать запись, напрямую зависит от вашего опыта и с какой скоростью вы набираете текст. Профессионалу со скоростью набора 350 символов потребуется около трех часов, у новичка может уйти весь день.
Особо упомяну такой вид расшифровки — пересказ. В данном виде транскрибации расшифровщику не нужно дословно излагать текст. Можно пересказать смысл своими словами. Такая расшифровка приравнивается к рерайту и цена у нее соответствующая, около 30 руб./1000 символов.
Следующий метод — редактирование речи. Разговорная речь имеет большие отличия от письменной. Люди применяют слова-паразиты, не договаривают предложения и жестикулируют. Делая такие поправки, транскрибатор повышает цену за материал. При данном методе возможна проверка точности материала, его смысла, исторических дат и прочее. Это также повышает стоимость.
Осторожно — мошенники
В заработке по расшифровке много лохотронщиков! Лохотронщики могут применять следующие методы:
— Заказчик может прислать расшифровщику часть материала, для проверки его способностей. Данный материал бесплатный. по результату выполнения данного заказа заказчик принимает решение, сотрудничать с данным транскрибатором далее или нет. Подобных частей заказа он может выслать огромному числу человек и всем ответить отказом. Сложа вмести отдельные части, у него выйдет целостный материал.
В данной ситуации я бы посоветовал не браться за выполнение больших бесплатных частей аудио. Пяти минут более, чем достаточно для оценки вашей работы.
— Заказчик может заговорить о внесении некоторой суммы денег, якобы для подтверждения серьезности намерений расшифровщика, может попросить деньги за ваше оформление и прочее.
ЗАПОМНИТЕ! Если работодатель заводит разговор о внесении на его счет какой-то наличности — это мошенник.
— Различные обучающие материалы за наличность. Частенько, подобная обучалка состоим только из программы по «Слепому скоростному методу печатания». Данную программу можно скачать бесплатно!
Вывод: расшифровка аудио может принести вам приличный доход! Но вам потребуется много сил, навыков и времени! И постарайтесь не попасть на лохотронщиков! Успехов!
Расшифровка интервью
Расшифровка текста — это преобразование речи в текст дословно. Расшифровка является обычной практикой при проведении интервью, потому что это позволяет выполнять анализ.
Способы расшифровки
Прежде чем приступить к работе необходимо определиться, какой способ расшифровки записи вы желаете использовать. Оптимальный способ зависит от цели вашей стенограммы.
Расшифровка записи дословно
Запишите каждое слово, включая паузы, с обозначением выражаемых эмоций, таких как смех, заикание и выражение неуверенности и задумчивости, например, «а..».
Этот тип расшифровки в основном используется в юридической среде или при проведении исследований, где вас интересует не только то, что сказано, но и то, как это сказано.
Интеллектуальная дословная расшифровка (наиболее распространенная)
Запишите каждое слово, но без бессмысленных звуков/слов, например, «хм», «да», «вы знаете» и т.д. Ради удобства восприятия, вы также можете исправить грамматические ошибки, корявые предложения и длинные абзацы.
Этот способ более читабельный по сравнению с дословной расшифровкой записи, но некоторая информация, например, эмоции, паузы и сомнения, теряются в процессе.
Отредактированная расшифровка
Обобщенная и отредактированная версия интеллектуальной стенограммы. В дополнение к пропуску фраз типа «вы знаете…», можно пропустить предложения, не имеющие особого значения, если это не меняет смысл истории.
Изменение стенограммы
Если качество звука плохое или сам разговор нуждается в уточнении, вам разрешено вносить изменения в стенограмму. Например:
Пример стенограммы
Правила форматирования и структурирования стенограммы отсутствуют. Однако большинство стенограмм содержат следующую информацию:
Интервьюер: Раймо Штрифкерк (РШ)
Интервьюируемый: Менеджер по продажам Джон Смит (ДжС)
Дата и время: 5 апреля 2019 г. 16:00
Местоположение: Штаб-квартира компании X в Лос-Анджелесе
РШ: Спасибо, что нашли время для этого интервью.
ДжС: Пожалуйста! Я с удовольствием отвечу на ваши вопросы, потому что эта тема меня тоже интересует.
РШ: Позвольте начать с вопроса о ваших отношениях с клиентами. Как они выглядят?
ДжС: Я всегда стремлюсь к обеспечению такого уровня отношений, где я действительно знаю, с какими проблемами сталкивается мой клиент и каким образом я могу помочь справиться с ними. Мы не просто поставляем продукцию, а на самом деле стараемся оказать помощь. А это возможно исключительно при наличии понимания целей, которые клиент желает достичь.
Анализ расшифровки интервью
Если вы приводите цитаты из интервью в своей статье, убедитесь, что вы правильно цитируете источник. Посмотрите, как процитировать интервью в стиле MLA и APA.
Программное обеспечение для расшифровки записей
Расшифровка интервью занимает много времени, но, к счастью, быстро идет процесс разработки программного обеспечения! При помощи программного обеспечения для расшифровки записей вы сможете ускорить процесс.
Точность
Большинство программ способно точно конвертировать английскую речь в текст. Однако для этого необходимо хорошее качество звука, что подразумевает отсутствие фоновых шумов, высказываний нескольких лиц одновременно, явно выраженных акцентов и наличие хороших микрофонов.
К сожалению, если качество аудио записи слишком плохое для автоматической расшифровки, вам придется диктовать его или расшифровывать вручную.
3 способа расшифровки диктофонной записи: распознавание речи, диктовка, ручной режим
В «Фейсбуке» нам задали вопрос:
«Для работы с текстом мне нужно расшифровать 3 часа диктофонной записи. Пробовал загрузить аудиофайл с картинкой в YouTube и воспользоваться их расшифровщиком текста, но получается какая-то абракадабра. Подскажите, как можно решить это технически? Спасибо!
Александр Коновалов»
Александр, простое техническое решение есть – но результат будет зависеть исключительно от качества вашей записи. Поясню, о каком качестве речь.
За последние годы технологии распознавания русской речи сильно продвинулись вперед. Процент ошибок распознавания снизился до такого уровня, что иной текст стало проще «наговорить» в специальном мобильном приложении или интернет-сервисе, откорректировав вручную отдельные «очепятки» – чем целиком набирать весь текст на клавиатуре.
Но, чтобы искусственный интеллект системы распознавания смог проделать свою работу – пользователь должен проделать свою. А именно: говорить в микрофон четко и размеренно, избегать сильных фоновых шумов, по возможности использовать стереогарнитуру или выносной микрофон, прикрепленный к петлице (для качества распознавания важно, чтобы микрофон все время находился на одном расстоянии от губ, а вы сами говорили с одинаковой громкостью). Естественно, чем выше класс аудиоустройства – тем лучше.
Несложно придерживаться этих условий, если вы, вместо того, чтобы обращаться к интернет-сервису распознавания речи напрямую, применяете в качестве промежуточного устройства-посредника диктофон. К слову, такой «персональный секретарь» особенно незаменим, когда у вас нет доступа к онлайну. Естественно, лучше использовать хотя бы недорогой профессиональный диктофон, нежели записывающее устройство, встроенное в дешевый mp3-плеер или смартфон. Это даст гораздо больше шансов «скормить» полученные записи сервису распознавания речи.
Сложно, но можно уговорить соблюдать эти правила собеседника, у которого вы берете интервью (еще один совет: если у вас нет в комплекте выносного микрофона на прищепке – хотя бы держите диктофон рядом с собеседником, а не с собой).
А вот «законспектировать» на нужном уровне в автоматическом режиме конференцию или семинар – дело, на мой взгляд, практически нереальное (ведь вы не сможете контролировать речь спикеров и реакцию слушателей). Хотя достаточно интересный вариант: превращение в текст профессионально записанных аудиолекций и аудиокниг (если на них не накладывалась фоновая музыка и шумы).
Будем надеяться, что качество вашей диктофонной записи – достаточно высокое, чтобы ее удалось расшифровать в автоматическом режиме.
Если же нет – практически при любом качестве записи вы сможете провести расшифровку в полуавтоматическом режиме.
Кроме того, в ряде ситуаций наибольшую экономию времени и сил вам принесет, как ни парадоксально, расшифровка в ручном режиме. Точнее, тот ее вариант, который сам я использую уже с десяток лет. 🙂
1. Автоматическое распознавание речи
Многие советуют расшифровывать диктофонные записи на YouTube. Но этот метод заставляет пользователя тратить время на этапе загрузки аудиофайла и фоновой картинки, а затем – в ходе очистки итогового текста от меток времени. Между тем, это время несложно сэкономить. 🙂
Вы можете распознавать аудиозаписи прямо со своего компьютера, воспользовавшись возможностями одного из интернет-сервисов, работающих на движке распознавания Google (рекомендую Speechpad.ru или Speechlogger.com). Все, что нужно – проделать маленький трюк: вместо вашего голоса, воспроизводимого с микрофона, перенаправить на сервис аудиопоток, воспроизводимый вашим компьютерным проигрывателем.
Этот трюк называется программным стерео микшером (его обычно применяют для записи музыки на компьютере или ее трансляции с компьютера в интернет).
Стерео микшер входил в состав Windows XP – но был удален разработчиками из более поздних версий этой операционной системы (говорят, в целях защиты авторских прав: чтобы геймеры не воровали музыку из игр и т.п.). Однако стерео микшер нередко поставляется вместе с драйверами аудиокарт (например, карт Realtec, встраиваемых в материнскую плату). Если вы не найдете стерео микшер на своем ПК с помощью предлагаемых ниже скриншотов – попробуйте переустановить аудиодрайверы с CD-диска, который шел в комплекте с материнской платой – либо с сайта ее производителя.
Если и это не поможет – установите на компьютер альтернативную программу. Например – бесплатный VB-CABLE Virtual Audio Device: использовать его рекомендует владелец вышеупомянутого сервиса Speechpad.ru.
Первым шагом вы должны отключить для использования в режиме записи микрофон и включить вместо него стерео микшер (либо виртуальный VB-CABLE).
Для этого нажмите по иконке громкоговорителя в правом нижнем углу (возле часов) – либо выберите раздел «Звук» в «Панели управления». Во вкладке «Запись» открывшегося окна щелкните правой кнопкой мыши и поставьте птички напротив пунктов «Показать отключенные устройства» и «Показать отсоединенные устройства». Нажмите правой кнопкой по иконке микрофона и выберите пункт «Отключить» (вообще, отключите все устройства, отмеченные зеленым значком).
Нажмите правой кнопкой по иконке стерео микшера и выберите пункт «Включить». На иконке появится зеленый значок, что будет означать, что стерео микшер стал устройством по умолчанию.
Если вы решили использовать VB-CABLE – то тем же способом включите его во вкладке «Запись».
А также – во вкладке «Воспроизведение».
Второй шаг. Включите аудиозапись в любом проигрывателе (если нужно расшифровать аудиодорожку видеоролика – можно запустить и видеопроигрыватель). Параллельно загрузите в браузере Chrome сервис Speechpad.ru и нажмите в нем кнопку «Включить запись». Если запись достаточно высокого качества, вы увидите, как сервис на глазах превращает речь в осмысленный и близкий к оригиналу текст. Правда, без знаков препинания, которые вам придется расставить самостоятельно.
В качестве аудиопроигрывателя советую использовать AIMP, о котором будет подробнее рассказано в третьей подглавке. Сейчас лишь отмечу, что этот плеер позволяет замедлить запись без искажений речи, а также исправить некоторые другие погрешности. Это может несколько улучшить распознавание не слишком качественной записи. (Иногда даже советуют предварительно подвергать плохие записи обработке в профессиональных программах редактирования звука. Однако, на мой взгляд, это слишком трудоемкая задача для большинства пользователей, которые гораздо быстрее наберут текст вручную. 🙂 )
2. Полуавтоматическое распознавание речи
Тут все просто. Если запись некачественная и распознавание «захлебывается» либо сервис выдает слишком много ошибок – помогите делу сами, «встроившись» в цепочку: «аудиоплеер – диктор – система распознавания».
Ваша задача: прослушивать в наушниках записанную речь – и параллельно надиктовывать ее через микрофон интернет-сервису распознавания. (Естественно, вам не нужно, как в предыдущем разделе, переключаться в списке записывающих устройств с микрофона на стерео микшер или виртуальный кабель). А в качестве альтернативы упоминавшимся выше интернет-сервисам можете использовать смартфонные приложения вроде бесплатной «Яндекс.Диктовки» либо функцию диктовки в iPhone с операционной системой iOS 8 и выше.
Отмечу, что в полуавтоматическом режиме вы имеете возможность сразу диктовать знаки препинания, расставлять которые в автоматическом режиме сервисы пока не способны.
Если у вас получится диктовать синхронно с воспроизведением записи на плеере – предварительная расшифровка займет практически столько же времени, сколько и сама запись (не считая последующих затрат времени на исправление орфографических и грамматических ошибок). Но даже работа по схеме: «прослушать фразу – надиктовать – прослушать фразу – надиктовать», – может вам дать неплохую экономию времени по сравнению с традиционным набором текста.
В качестве аудиоплеера рекомендую использовать тот же AIMP. Во-первых, с его помощью вы можете замедлить воспроизведение до скорости, на которой вам будет комфортно работать в режиме синхронной диктовки. Во-вторых, этот плеер умеет возвращать запись на заданное количество секунд: это бывает необходимо, чтобы лучше расслышать неразборчивую фразу.
3. Расшифровка диктофонной записи в ручном режиме
Вы можете установить на практике, что слишком быстро устаете от диктовки в полуавтоматическом режиме. Или делаете вместе с сервисом слишком много ошибок. Или, благодаря навыкам быстрого набора, гораздо легче создаете готовый исправленный текст на клавиатуре, чем с помощью диктовки. Или ваш диктофон, микрофон на стереогарнитуре, аудиокарта не обеспечивают приемлемое для сервиса качество звука. А может, у вас просто нет возможности диктовать вслух в своем рабочем или домашнем офисе.
Во всех этих случаях вам поможет мой фирменный способ расшифровки вручную (прослушиваете запись в AIMP – набираете текст в Word). С его помощью вы превратите запись в текст быстрее, чем это сделают многие профессиональные журналисты, чья скорость набора на клавиатуре аналогична вашей! При этом вы потратите гораздо меньше, чем они, сил и нервов. 🙂
Из-за чего, в основном, теряются силы и время в ходе расшифровки аудиозаписей традиционным способом? Из-за того, что пользователь совершает очень много лишних движений.
Пользователь постоянно протягивает руку то к диктофону, то к клавиатуре компьютера. Остановил воспроизведение – набрал прослушанный отрывок в текстовом редакторе – снова включил воспроизведение – отмотал неразборчивую запись назад – и т.д., и т.п.
Использование обычного программного плеера на компьютере мало облегчает процесс: пользователю приходится постоянно сворачивать/разворачивать Word, останавливать/запускать плеер, да еще елозить туда-сюда слайдером плеера, чтобы найти неразборчивый фрагмент, а затем вернуться к последнему прослушанному месту в записи.
Чтобы сократить эти и другие потери времени, специализированные IT-компании разрабатывают программные и аппаратные транскрайберы. Это достаточно дорогие решения для профессионалов – тех же журналистов, судебных стенографистов, следователей и т.д. Но, собственно, для наших целей требуются только две функции:
В свое время я протестировал десятки аудиопрограмм – и нашел лишь два доступных платных приложения, отвечающих этим требованиям. Приобрел одно из них. Поискал еще немного для своих дорогих читателей 🙂 – и нашел замечательное бесплатное решение – проигрыватель AIMP, которым сам пользуюсь до сих пор.
Далее просто процитирую отрывок из своего удаленного ЖЖ (что бы я делал, если б его не сохранил интернет 🙂 ).
«Войдя в настройки AIMP, найдите раздел Глобальные клавиши и перенастройте Стоп/Пуск на клавишу Эскейп (Esc). Поверьте, это наиболее удобно, поскольку не придется задумываться и палец не попадет случайно на другие клавиши. Пункты «Немного перейти назад» и «Немного перейти вперед» настройте, соответственно, на клавиши Ctrl + клавиши курсора назад/вперед (у вас на клавиатуре есть четыре клавиши со стрелками – выберите две из них). Эта функция нужна, чтобы заново прослушать последний фрагмент или перейти немного вперед.
Затем, вызвав эквалайзер, вы можете уменьшить значения «Скорость» и «Темп» – и увеличить значение «Питч». При этом Вы заметите, что скорость воспроизведения замедлится, но высота голоса (если хорошо подберете значение «Питч») – не изменится. Подберите эти два параметра так, чтобы вы практически синхронно успевали набирать текст, лишь изредка останавливая его.
Когда все будет настроено, набор будет занимать у вас меньше времени, и руки будут уставать меньше. Вы сможете расшифровывать аудиозапись спокойно и комфортно, практически не отрывая пальцев от набора текста на клавиатуре».
Могу только добавить к сказанному, что, если запись не очень качественная – вы можете попытаться улучшить ее воспроизведение, экспериментируя с другими настройками в «Менеджере звуковых эффектов» AIMP.
А количество секунд, на которое вам будет наиболее удобно перемещаться по записи назад или вперед с помощью горячих клавиш – установите в разделе «Плеер» окна «Настройки» (которое можно вызвать нажатием горячих клавиш «Ctrl + P»).
Желаю сэкономить побольше времени на рутинных задачах – и плодотворно использовать его для главных дел! 🙂 И не забудьте включить микрофон в списке записывающих устройств, когда соберетесь поговорить по скайпу! 😉