rnnoise obs что это

RNNoise: пожертвуй свой шум для обучения нейросети Mozilla

Спектрограмма до шумоподавления, записана человеческая речь на SNR 15 дБ

Спектрограмма звука после обработки нейросетью RNNoise

Шумоподавление остаётся актуальной темой научных исследований по крайней мере с 70-х годов прошлого века. Несмотря на значительные улучшения в качестве систем, их высокоуровневая архитектура практически не претерпела изменений. Техника спектральной оценки полагается на спектральную оценку шума, которая, в свою очередь, работает при помощи детектора голосовой активности (VAD) или тому подобного алгоритма. Каждый из трёх компонентов требует аккуратной подгонки — и их трудно настраивать. Поэтому достижения Mozilla и Xiph.org в глубинном обучении имеют такое большое значение. Созданная ими гибридная система RNNoise уже сейчас демонстрирует неплохой результат в шумоподавлении (см. исходный код и демо).

Создавая RNNoise, разработчики стремились получить маленький и быстрый алгоритм, который будет эффективно работать в реальном времени даже на Raspberry Pi. И им это удалось, причём RNNoise показывает более качественный результат, чем самые крутые и навороченные современные фильтры.

Высокоуровневая структура большинства алгоритмов шумоподавления

Нейросети и раньше использовалиcь для подавления шумов, в последние годы это популярное направление исследований. Но большинство из них предполагают использование в приложениях автоматического распознавания речи, где задержка и вычислительная мощность не являются определяющими факторами. В отличие от них, проект Mozilla ориентируется на приложения реального времени, такие как видеоконференции, и на обработку звука с полноценной частотой дискретизации 48 кГц.

Для достижения поставленной цели Mozilla применила гибридный подход, который задействует одновременно и хорошо известные методы шумоподавления, и глубинное обучение для замены тех компонентов, которые трудно настраиваются в обычных системах. Суть метода изображена на блок-схеме.

Блок-схема обработки сигнала

Такой гибридный подход отличается от end-to-end сетей, где нейросеть берёт на себя абсолютно всю или почти всю обработку звука. Безусловно, подобные системы доказали свою эффективность, но разработчики RNNoise считают их слишком сложными и ресурсоёмкими. Например, в RNN-сеть для шумоподавления от Google (2012 год) напрямую оценивает величины частот. Для обработки звука на 8 кГц она задействует 6144 блоков в скрытых слоях и около 10 млн весовых показателей. Масштабирование на речь 48 кГц с фреймами по 20 мс создаёт слишком сложную систему с более чем 400 выходными сигналами (от 0 до 20 кГц). её точно не потянет Raspberry Pi. Задачей Mozilla было сделать простую и быструю модель, поэтому они применили гибридный подход. Кроме того, они вообще отказались от прямой работы с сэмплами и со спектром, а вместо этого разделили спектр на 22 диапазона — и анализировали именно их, а не 480 (сложных) спектральных значения, которые пришлось бы анализировать в противном случае. Эти 22 диапазона соответствуют человеческому восприятию звука на слух, в соответствии с психоакустической шкалой барков. Подобное распределение используется в кодеке Opus, и здесь Mozilla позаимствовала базовую модель, лишь немного скорректировав её.

Такой подход доказал свою эффективность. Программа потребляет лишь скромную долю вычислительных ресурсов процессора ARM Cortex-A53, работающего на 1,2 ГГц (Raspberry Pi 3).

Сравнительные тесты показали, что применение нейросети значительно улучшает качество шумоподавления. На диаграммах показано подавление шума от фоновых разговоров (слева), автомобилей (в центре) и уличного шума (справа) в сравнении с библиотекой SpeexDSP на основе MMSE.

Сейчас разработчики обращаются ко всем пользователям с просьбой пожертвовать свой шум в научных целях, то есть для обучения нейросети. Записать шум можно прямо в онлайне. Просят сделать это в любом окружении, где возможен разговор голосом, то есть буквально в любом месте: это может быть ваш автомобиль, офис, улица или какое угодно место, где вы можете общаться по телефону или через компьютер. На странице записи шума просто нажмите кнопку “Record” и помолчите 1 минуту. Для обучения нейросети нужно ещё указать, в каком конкретно окружении вы записывали тишину (шум).

Научная статья (pdf) с описанием RNNoise пока не подана для публикации в научный журнал.

Источник

Русские Блоги

RNNoise введение и настройка среды

Для получения основной информации о RNNoise, пожалуйста, проверьтеСерия обучения и перевода RNNoise

оглавление

Основной процесс и модули RNNoise

Как показано на рисунке ниже, функцию базы кода RNNoise можно разделить на две части:

Обе части полагаются на C-код в светло-серой части посередине, чтобы реализовать функцию цифровой обработки сигнала.

Сценарий python, обозначенный синим прямоугольником, в основном используется для процесса обучения.

Введение в структуру каталогов RNNoise

Соответствующий код RNNoise можно найти по адресуhttps://github.com/danteliujie/rnnoiseПолучить.

Проект имеет только два уровня каталогов.Все каталоги и имена файлов исходного проекта перечислены здесь, с небольшим комментарием. Для нашей новой части, это будет объявлено в следующих главах.

Некоторые проблемы с поддержкой оригинального проекта для Windows

Исходный проект должен в основном учитывать пользователей платформы Linux, есть некоторые небольшие проблемы в использовании платформы Windows,

Мы создали филиал для решения этих проблем, пожалуйста, обратитесь кссылка на сайт.

Как скомпилировать связанные проекты и создать исполняемые файлы

Как построить среду обучения на основе Python

Пожалуйста, следуйте инструкциям ниже:

1. Загрузите и установите версию Anaconda3-2019.07-Windows-x86_64.exe, специальные примечания по установке, включая параметры переменных среды, выполните поиск соответствующего содержимого.

2. Запустите окно Anaconda Prompt (если переменные среды настроены правильно, вы также можете запустить окно командной строки Windows напрямую).

3. Установите виртуальную среду, например, установите виртуальную среду с именем Python37 со следующим кодом.

4. Запустите эту виртуальную среду

5. Установите зависимые библиотеки

Если вы все еще сталкиваетесь с сообщением типа «ModuleNotFoundError: нет модуля с именем« keras »» во время использования, используйте pip install для установки соответствующих библиотек.

Как тренироваться и уменьшить шум

Выполните pre_proc.cmd в каталоге rnnoise

Примечание: данные будут помещены в учебный каталог.

Источник

Как очистить голос от шумов на стриме в OBS?

Металлический призвук в голосе и есть артефакты фильтрации. Возможно есть настройки этого фильтра? Если фон и голос совпадают по частотам, то полностью и без искажений отфильтровать не получится.

Проше сменить темб голоса

хм, попробовать каких фильтров тогда на изменение голоса добавить

rtx voice если с пк

по идее да, вопрос в выводе дорожки с пк на бук, по идее через виртуалдаб либо микшер можно сделать

Программа Virtual Dub все верно, микшер это я уже про железку имею ввиду. По идее нам нужно пусть запись с микрофона через войсес в отдельную дорожку, здесь я и советую использовать виртульный кабель а вот дальше как его нормально вывести на бук я хз)) у меня для похожих ситуаций и стоял микшерский пульт, а здесь хз. можно попробовать через сеть в принципе транслировать вроде как через PulseAudio либо радмином тем же но особо не подскажу (опять же первое что в гугле попалось) так что дальше нужно разбираться. Можно попробовать звук через hdmi кинуть с бука на стрим пк, вроде в виртуалдабе подобное можно было сделать, но опять же это нужно цеплять и проверять.

Если поплясать с бубном, то можно даже попробовать запустить на GTX карте.

Вообще не надо плясать, там уже несколько месяцев официальная поддержка любых (кроме совсем допотопных) карт нвидиа. Работает из коробки.

где? пытался поставить 2 недели назад, написало что не поддерживается видеокарта. Вот только не помню бродкаст ставил или войсес обновлял сижу на старой версии с правленым уидом

В конце августа брату поставил, у него 1650. Просто с официального сайта скачал последнюю версию. Далее-далее-готово. Выбрал источники звука в софтине и в винде. Никаких сложностей вообще.
upd: не в августе, а в сентябре, перепутал. Качал по ссылке https://developer.nvidia.com/rtx/broadcast_engine/secure/NVIDIA_RTX_Voice.exe

Залез сейчас проверил, добавили версию для бедных, но проверю уже на следующих выходных над форточку обновить до последней версии( еще бы бродкаст для остальных выпустили вообще отлично было бы

Ну а хера тогда с минусов и бугурта зашёл не проверив?)

Так говорю же пару недель назад может чуть больше чекал, войса не было был бродкаст один

Комментарий удален по просьбе пользователя

Для консольщика это может стать ультра челленджем.

Васян, ну ты прям типичный пк боярен™ с двачей, считающий свой зион и б/у карту с али признаком выдающегося интеллекта и принадлежности к высшей расе.

Кстати да, надо будет как-нибудь попробовать собрать комп из бу зиона и титана.

я на паскале юзаю, все норм

у меня все настроено на MacBookPro 2019 года, через bootcamp установил windows 10 и все идет через amd видео карту и соотвественное остальное ноутбучное железо

Комментарий удален по просьбе пользователя

Купи другую консоль.

Если хочешь хороший и чистый звук то есть несколько вариантов:

1. Купить качественное железо.
2. Пересмотреть расположение оборудования в комнате.
3. Попробовать VST плагины, но они будут грузить твой ПК. Например Nectar 3. Но его нужно правильно настроить еще конечно же.

Под железом я подразумеваю нормальный ПК, хороший микрофон, но раз у тебя так шумно, то тебе нужен динамический, а не конденсаторный и желательно купить нормальный аудиоинтерфейс, для стримов подходит например GO XLR. Динамический микрофон не будет так улавливать посторонние звуки, но его нужно в буквальном смысле облизывать, то есть говорить прямо в него вплотную. Так же к такому микрофону нужен хороший аудиоинтерфейс и предусилитель.

Если ты не хочешь заморачиваться со стойкой для микро и тд, а хочешь компактности, то тебе может подойти головной микрофон как например AKG C520, который к слову использует WLG, НО к нему нужен хороший аудиоинтерфейс и возможно предусилитель + нужно заморачиваться с настройками звука. Иначе он будет точно так же ловить посторонние звуки или искажать твой голос.

Запомни, нет универсальных настроек для какого-либо микрофона, так как у всех условия отличаются, как и тембр голоса.

Так же можно купить USB микрофон, если не хочешь сильно тратиться, как например AT 2020USB+ и уже его можно в ОБС с помощью плагинов настроить вполне неплохо. У меня допустим ноут шумел довольно громко, но я всё настроил и голос был чёткий и почти без искажений.

Источник

Настройка звука для записи видео

Содержание

Введение

Из-за того, что этот микрофон стоит на столе, он ловит много вибраций от движений рук по столу. Ещё он довольно чувствительный, поэтому отчётливо захватывает шум компьютера. Я постарался это исправить.

ЧАСТЬ ДЛЯ ОБЫЧНЫХ ПОЛЬЗОВАТЕЛЕЙ

RTX Voice

Скачал RTX Voice и выставил немного процентов. Программа точное количество процентов не показывает, чтобы ориентироваться, то ползунок под “Remove background noise from my microphone” я поставил под буквой “o” в слове “noise”. При больших значения начинаются дефекты голоса, тихие слова или смех могут обрезаться. Если только для общения в дискорде, то можно ставит 80%. (Проверьте нет ли лагов записи прослушав этот микрофон, но уже виртуальное устройство RTX Voice. Для этого нажмите правой кнопкой мыши по значку звука, затем «Открыть параметры звука«, разверните окно, справа появится кнопка «Панель управления звуком», сверху выбрать «Запись«, «Микрофон NVIDIA RTX Voice«)

Ставим галочку Прослушивать с жанного устройства

Если имеются потрескивания или зависания, то лучше не использовать RTX Voice
Часть для обычных пользователей закончилась

ЧАСТЬ ДЛЯ ТЕХ, КТО ХОЧЕТ ЗАПИСЫВАТЬ ВИДЕО, СТРИМИТЬ

Light Host и Virtual Audio Cable

Помимо RTX Voice (если не лагает) далее нужно скачать Light Host и Virtual Audio Cable Light Host

Virtual Audio Cable

Добавить Light Host в автозагрузку

Для этого нажимаем Win + R и вводим shell:startup и переносим туда ярлык light Host. Перезагружаем ПК, теперь в трее появился Light Host. Нажимаем левой кнопкой и выбираем “Preferences”. Тут в output ставим “CABLE INPUT (VB-Audio Virtual Cable)”, а в input ставим “NVIDIA RTX Voice”. Если RTX Voice лагал, то ставим просто микрофон Fifine K678.

Плагины для Light Host

Теперь скачиваем и устанавливаем плагины iZotope RX8 Audio Editor и iZotope Nectar Plus. Вновь нажимаем левой кнопкой в трее по light Host и выбираем “Edit Plugins”.

В открывшемся окне нажимаем “Options”, затем “Scan for new or updated VST3 plug-ins”.

Нажимаем на плюсик и добавляем папку с плагинами C:\Program Files\Common Files\VST3\iZotope

Нажимаем Scan. По завершению закрываем окно.

RX 8 Voice De-noice

Нажимаем левой кнопкой в трее по Light Host. В пункте “Avaliable Plugins” наводим на IZotope и добавляем сначала RX 8 Voice De-noice, а затем уже Nectar 3.

Теперь наводим на RX 8 Voice De-noice в “Active Plugins” и выбираем Edit. Выключаем Adaptive mod и не трогая стол, не дыша в микрофон, в полной тишине нажимаем Learn.

Теперь программа поймёт какие шумы фоновые, чтобы обрабатывать звук. Можно закрывать окно.

Nectar 3

Теперь наводим на Nectar 3 в “Active Plugins” и выбираем Edit. Нажимаем “Presets” и ищем там “Voice Over & Dialogue”, потом “Home Voiceover Enhancer”.

Использование

Теперь в дискорде или другие приложения, использующие микрофон, ставим в устройсво ввода “CABLE OUTPUT (VB-Audio Virtual Cable)”

НАСТРОЙКА OBS

В OBS нужно накинуть ещё плагины, чтобы звук был действительно качественным. Меняем микрофон на “CABLE OUTPUT (VB-Audio Virtual Cable)”

И в фильтрах ставим
Шумоподавление RNNoise
Усиленение +10дцб
Шумоподавление RNNoise

И потребуется ещё один фильтр, который необходимо скачать LoudMax

Также качаем софт к нему Voxengo Marvel GEQ

На этапе установки оставляем галочку только на “VST audio host applications”

ГОТОВО, это лучший звук, который я смог пока что сделать для стримов и видео

Источник

Rnnoise obs что это

This is a RNNoise windows platform demo. It was modified and restructured so that it can be compiled with MSVC, VS2017, VS2019. Apart from this, this project also has the cmake support for other platforms.

What is the changes

Some training python scripts have been changed for fixing the bugs and can easy to use.

You can reference the rnnoise_demo() function in the vs project Rnnoise-windows for more details.

Initialize the rnnoise module.

rnnoise frame process and output

Rnnoise has a excellent performance for the steady noise. Meanwhile, it can also work with the music noise situation. It depends on the model you train.

Test 1: speech with pink noise

Test 2: car noise + music + speech

How to train your model

You should install below tools before training:

Tensorflow, python, Keras

It is a good choice to use Anaconda to manage your training environment, especially for windows platform.

Install the training environment

download and install anaconda from the link.

create a virtual training environment

activate the virtual environment

install tensorflow in the virtual environment

install keras in the virtual environment

finally, start training( not yet right now)

Prepare the feature set for training

Generate the feature set to train a new model needs two wav files, one is the clean speech and the other is the noise data.

Complier a tool to convert the two file into a feature set

It will generate a tool which can help you convert the two file into a feature set. For example

The file feature.dat contains the feature needed.

Convert the feature into h5 format

First copy the file generated last step into the my-training directory. Then run a python script convert the feature into h5 format. Open your command line reference as below commands.

Capture the new model

Version	log
1.2.1	fix cmake support for Linux/wsl platform; fix output stream missing bug in denoise.c when training
1.2	update training steps and merge the code from official branch, cmake support fails at this version
1.1	remove some extra files and test for vs2019
1.0	add cmake support and test for vs2017

About

This is a RNNoise windows demo. It was modified and restructured so that it can be compiled with MSVC, VS2017, VS2019.

Источник