pcm s16le что это
Характеристики и форматы аудио
В этой статье мы кратко расскажем о важных характеристиках аудио, о том, как они влияют на распознавание и синтез речи, а также о поддерживаемых форматах аудио и кодеках.
Частота дискретизации и битовая глубина
Оцифровка звуковых сигналов осуществляется путем дискретизации (семплирования). Сигнал измеряется через равные промежутки времени, и значение амплитуды сигнала фиксируется в момент измерения — это и есть семпл. Если сигнал замеряется 16 000 раз за секунду, частота дискретизации (sample rate) равна 16 000 Гц. Например, для телефонной связи обычно используется частота в 8 000 Гц.
Если есть выбор, при распознавании лучше использовать аудио с частотой 16 000 Гц и выше, т. к. дискретизация с меньшей частотой может привести к потере точности распознавания (особенно, если в аудио есть фоновые шумы).
После оцифровки сигналы переводятся в двоичную форму. Битовая глубина (bit depth) определяет, сколько бит отводится для хранения одного семпла.
Чем больше битовая глубина и частота дискретизации, тем точнее получившийся цифровой сигнал соответствует исходному.
Сжатие и потеря качества
Аудиофайлы могут быть сжаты для хранения и передачи. Сжатие может происходить с потерями какой-либо информации (lossy) или без потерь (lossless). При сжатии с потерями часть данных аудиосигнала отбрасывается, и восстановить их не удастся. Несжатое аудио наиболее приближено к исходному звуку.
Какие форматы и кодеки поддерживаются
Формат аудио — это своеобразный контейнер, в который с помощью специальной программы — кодека — записывается аудиосигнал. Для некоторых форматов кодек можно определить однозначно. Например, для формата MP3 всегда используется кодек MPEG Audio Layer III, в то время как для FLAC могут использоваться разные кодеки.
В таблице ниже указаны кодеки и примеры форматов, которые поддерживаются в Tinkoff VoiceKit:
Кодеки | Примеры форматов | Без потерь | Без сжатия |
---|---|---|---|
LINEAR16 (Linear PCM) | WAV, FLAC | + | + |
ALAW (a-law) | WAV, WMA, FLAC | + | — |
MULAW (μ-law) | WAV, FLAC | + | — |
OPUS | Ogg, WebM, MPEG, MP4 | — | — |
MP3 (MPEG Audio Layer III) | MP3, MPEG, MP4 | — | — |
Вы также можете использовать raw-файлы, которые содержат необработанные аудиосигналы. Если аудио находится в контейнере (WAV, Ogg и т. п.), перед распознаванием его нужно декодировать (кроме MP3 — его можно передавать как есть). Метод синтеза речи возвращает raw-файл — если необходимо, запакуйте полученные семплы в нужный формат.
Как правильно указать
Следующие рекомендации помогут принять решение о том, какое значение для ваших аудиофайлов нужно указать:
Воспользуйтесь специальными утилитами, чтобы проверить свойства аудио. Примеры запуска утилит для файла с выводом:
В таблице ниже указано, на какие значения в выводе утилит нужно обратить внимание и какой выбрать соответственно этим значениям:
file | sox | ffprobe | |
---|---|---|---|
A-law | 8-bit a-law | pcm_alaw | |
mu-law | 8-bit u-law | pcm_mulaw | |
Microsoft PCM, 16 bit | 16-bit Signed Integer PCM | pcm_s16le (или s16be) | |
Opus audio | Opus | opus | |
MPEG | MPEG audio (layer I, II or III) | mp3 |
Обратная связь
Нам важна любая обратная связь!
Пишите все, что думаете о нашем сервисе, а мы прочитаем и ответим
Ликбез от What Hi-Fi: HD-аудио PCM • 24 бит/48 кГц • Без потери качества
Что такое «видео высокого разрешения», многие понимают; но какой смысл говорить об HD-аудио у ДК? Этот термин относится к форматам многоканального звучания, записываемого на Blu-ray-дисках. Для хранения цифрового аудиосигнала используются различные методы, но цель у них одна: лучший звук для вашего домашнего кинотеатра.
Что такое «видео высокого разрешения», многие понимают; но какой смысл говорить об HD-аудио у ДК? Этот термин относится к форматам многоканального звучания, записываемого на Blu-ray-дисках. Для хранения цифрового аудиосигнала используются различные методы, но цель у них одна: лучший звук для вашего домашнего кинотеатра.
Лучший? Насколько лучший?
На порядок. HD-аудио заметно повышает качество, и чтобы услышать это, не нужно быть экспертом. Каждый аспект звучания становится лучше – от динамического диапазона до реалистичности. Как утверждает менеджер по продажам компании Dolby Энди Дауэлл, «Вы слышите именно то, что инженер сведения слышал во время микширования – с точностью до бита». Энтони Уилкинс, директор по маркетингу компании DTS, говорит так: «Когда мы обсуждали компрессию данных для записи звука на DVD, самым корректным термином было бы «урезание», поскольку часть исходного сигнала необратимо терялась в процессе кодирования. У кодеков HD-аудио для Blu-ray этого не происходит; результат идентичен оригиналу».
Идентичен оригиналу? Полностью?
Именно так. Сегодня исходные аудиодорожки к фильмам записываются в формате без сжатия PCM с параметрами 24 бит/48 кГц (лучше, чем на CD). После микширования саундтрек сильно сжимают для воспроизведения в кинотеатре или дома; это похоже на то, как из компакт-диска делают MP3. В системе Dolby Digital, чаще всего применяемой для создания DVD, битрейт соответствует хорошему MP3-файлу – от 384 до 448 кбит/с. Компрессия всегда была нежелательна, но она была необходима для того, чтобы суметь «втиснуть» многоканальный звук целого фильма на катушку или диск ограниченного объема. Однако у Blu-ray-диска объем доходит до 50 ГБ, так что необходимость в компрессии отпадает. Такой диск способен хранить полный саундтрек в формате PCM 7.1 с параметрами 24 бит/48 кГц; даже однослойный 25-гигабайтный диск легко вмещает звуковую дорожку без сжатия в формате PCM 5.1.
Почему тогда не каждый диск содержит звук в PCM?
Он занимает довольно большую долю объема, особенно у менее дорогих дисков на 25 ГБ. Чтобы оставить место для дополнительных материалов, дорожек на иностранных языках, комментариев и собственно видеосоставляющей фильма, студии следуют одному из двух подходов. Один заключается в понижении 24-битного PCM-аудио до 16 бит/48 кГц. Однако более популярно использование двух систем записи звука без потери качества – DTS-HD Master Audio и Dolby TrueHD.
Что означает «без потери качества»?
Эти системы подобны архиваторам файлов: они упаковывают PCM 24 бит/48 кГц в меньший объем памяти. Для воспроизведения требуется «разархивирование» записанного файла обратно в PCM; это может делать как Blu-ray-проигрыватель, так и большинство AV-ресиверов. В результате применения технологии Dolby TrueHD получается звук в PCM 24 бит/48 кГц, но его хранение требует почти вдвое меньше места. Теоретически он должен быть идентичен оригиналу; так утверждают Dolby и DTS. Вот почему эти две технологии так популярны в Голливуде: они обеспечивают очень высокое качество звука, но требуют более скромных объемов дискового пространства в сравнении с PCM. Это снижает стоимость диска (позволяя ограничиться 25-гигабайтным носителем) и оставляет больше места для дополнительных материалов.
Что говорят цифры
Для хранения звуковой дорожки двухчасового фильма в PCM 5.1 (24 бит/48 кГц) требуется 6,2 ГБ памяти. Dolby TrueHD снижает эту цифру до 3 ГБ; чем больше разных аудиоканалов у фильма и чем он длиннее, тем полезнее сжатие. Что до сравнения двух систем, то у DTS-HD Master Audio выше битрейт, чем у Dolby TrueHD (24,5 Мбит/с и 18 Мбит/с), но на практике эти значения почти никогда не достигаются. На некоторых дисках имеются дорожки в обоих форматах. В целом, оба они весьма хороши.
Три основных формата HD-аудио
ЗА: Фантастическое качество, как в фильме «В 3:10 на Юму». Не требует «разархивирования»; доступен и старым Blu-ray-проигрывателям или AV-ресиверам.
ПРОТИВ: Занимает много места: «Юма» в формате 7.1 требует более 8 ГБ.
ЗА: Потрясающее качество звучания; занимает намного меньше места на диске, чем PCM. Саундтрек к фильму «Темный рыцарь» в TrueHD – один из самых замечательных.
ПРОТИВ: В теории, битрейт 18 Мбит/с дает чуть меньше, чем 24,5 у DTS-HD MA.
ЗА: Самый распространенный кодек без потерь на Blu-ray-дисках; звучит чудесно – это доказывает саундтрек к фильму «Аватар».
ПРОТИВ: Кое-кто утверждает, что он на деле лучше Dolby TrueHD; мы в этом не уверены.
Русские Блоги
Предисловие
Недавно в разделе аудиоинформации hi3516a я встретил некоторые профессиональные звуковые термины, такие как LPCM, ADPCM, G711, G726 и т. Д., Поэтому я поискал некоторую информацию, записал и резюмировал эти термины.
LPCM: linear pulse code modulation
Принцип LPCM (PCM) в разных приложениях одинаков, разница вЧастота дискретизации и точность квантованияразные.
Причина, по которой звук может быть оцифрована, заключается в том, что частота звука, которую может слышать человеческий слух, не является бесконечно широкой, в основном ниже 20 кГц. Согласно теореме дискретизации, только частота дискретизации превышает 40 кГц, исходный звук можно восстановить без искажений. Например, CD использует частоту дискретизации 44,1 кГц, в то время как другие в основном используют 48 кГц или 96 кГц.
Квантование делится на линейное квантование и нелинейное квантование. Линейное квантование имеет одинаковый интервал квантования во всем диапазоне квантования. Нелинейное квантование использует неравные интервалы квантования. Количество интервалов квантования определяется количеством бит в коде. Например, если CD использует 16-битное линейное квантование, количество интервалов квантования L = 65536. Чем больше количество битов (n), тем выше точность и выше отношение сигнал / шум SNR = 6,02n + 1,76 (дБ). Однако количество двоичных цифр для кодирования не неограниченно и должно определяться в соответствии с требуемой скоростью передачи данных. Например, достижимая скорость передачи данных для CD составляет 2 × 44,1 × 16 = 1411,2 Кбит / с.
ADPCM
ADPCM :Adaptive Differential Pulse Code Modulation
Говоря об ADPCM, мы должны сначала поговорить о DPCM.
Дифференциальная (разница) или дельта-PCM (DPCM) записывает текущее значение и предыдущее значениеЗначение разницы. DPCM квантует разность сигнала, что может дополнительно уменьшить количество битов квантования. По сравнению с эквивалентным PCM это кодирование требует только 25% количества битов. Это похоже на концепцию сжатия некоторых видео с использованием этого кадра и предыдущего кадра.разницаДля записи кадра добиться сжатия.
Алгоритм использует корреляцию между точками выборки речевого сигнала, а для нестационарных характеристик речевого сигнала он используетАдаптивное предсказаниес участиемАдаптивное квантованиеТо есть параметры квантователя и предсказателя могут адаптироваться к оптимальному состоянию параметра или приближаться к нему в соответствии со статистическими характеристиками входного сигнала и могут обеспечивать качество голоса на сетевом уровне со скоростью 32 кбит / с ◎ 8 кГц.
Особенности: ADPCM сочетает в себе адаптивные характеристики APCM и дифференциальные характеристики систем DPCM и представляет собой кодирование сигналов с лучшей производительностью. Его основная идея:
① Используйте адаптивные идеи для изменения размера шага квантования, то есть используйте маленький шаг квантования для кодирования небольших различий и используйте большой шаг квантования для кодирования больших различий. стоимость;
②Используйте прошлые значения выборки, чтобы оценить прогнозируемое значение следующей входной выборки, чтобы разница между фактическим значением выборки и прогнозируемым значением всегда была наименьшей.
Преимущества: низкая сложность алгоритма, низкая степень сжатия, минимальная задержка кодека (по сравнению с другими технологиями)
Недостаток: среднее качество звука.
Просто поймите, ADPCM предназначен для обработки данных LPCM.Сжатие с потерями, В процессе сжатия параметр квантования будет маленьким, когда он маленький, и большим, когда он большой, в зависимости от разницыРегулировкаРазмер; кроме того, он может считать предыдущие данные и более поздниепредсказаниеВ последующем расхождении данных постарайтесь сделать разницу как можно меньше.
преимущество: По сравнению с mp3 формат AAC имеет лучшее качество звука и файлы меньшего размера.
недостаточный: AAC принадлежитСжатие с потерямиФормат, с популярнымФорматы без потерь, такие как APE и FLACПо сравнению с качеством звука есть «существенный» пробел. Вдобавок, USB3.0 с более высокой скоростью передачи и MP3 большой емкости выше 16 Гб ускоряют популяризацию, что также устраняет «маленький» ореол на головке AAC.
Сравнение форматов
Как и в таблице выше, то аудиоДлина кадраЧто за концепция?
На самом деле концепция аудиокадров не так ясна, как видеокадры.Почти все форматы кодирования видео могут воспринимать кадр как закодированное изображение. Но аудиокадр связан с форматом кодирования, который реализуется каждым стандартом кодирования. Потому что, если вы возьмете PCM (некодированные аудиоданные), для них вообще не нужна концепция кадров, и их можно воспроизводить в соответствии с частотой дискретизации и точностью дискретизации. Например, для звука с частотой дискретизации 44,1 кГц и точностью дискретизации 16 бит битрейт можно вычислить как 4410016kbps, аудиоданные в секунду фиксированы 4410016/8 байтов.
При декодировании звука AAC (Advanced Audio Coding) с частотой дискретизации 44,1 кГц время декодирования одного кадра должно контролироваться в пределах 23,22 миллисекунды. Обычно один кадр основан на 1024 точках выборки.
Длина кадра G.711 в приведенной выше таблице равна 480 в качестве примера, тогда продолжительность одного кадра равна480/8khz=0.06s=60ms。
Объяснение PCM и Bitstream: Какой из них следует использовать?
Настроить звук довольно просто, но для получения наилучшего звучания необходимо знать несколько вещей. В частности, вы должны понимать, какой формат входного аудиосигнала HDMI выбрать, чтобы получить наилучшие результаты.
Как я уже говорил, здесь нет ничего сложного, и это руководство поможет вам выбрать правильный формат ввода.
По умолчанию обычно используется PCM, и в большинстве случаев вам следует использовать эту настройку. Однако в некоторых случаях Bitstream будет лучше.
Что такое входной аудиоформат PCM HDMI
Сначала давайте разберемся с PCM, поскольку он является стандартным форматом входного аудиосигнала HDMI. Итак, PCM — это аббревиатура от Pulse-code modulation.
Первоначально этот термин использовался в аналоговую эпоху и сначала означал преобразование аналогового звука в цифровой формат в телефонии. По мере развития телевидения он стал использоваться в телевизорах, оснащенных цифровыми процессорами.
Сейчас PCM немного изменился (потому что в современных телевизорах нет аналогового звука). Теперь PCM HDMI Input Audio Format означает, что будет использоваться аудиопроцессор и звук будет преобразован в формат 2.0 (два динамика) или 2.1 (два динамика + сабвуфер). Независимо от того, устанавливаете ли вы внешние колонки или используете встроенные динамики телевизора.
Однако, что если вы используете более продвинутую аудиосистему? В таком случае PCM — это не то, что вам нужно, потому что даже многоканальный звук будет преобразован в формат 2.0 или 2.1.
Поэтому если вы используете аудиосистему высокого класса, вам необходимо использовать Bitstream.
Что такое формат входного аудиосигнала HDMI Bitstream?
Bitstream — это более сложный аудиоформат, который следует использовать, если вы используете аудиосистему высокого класса. В этом случае аудио должен быть аудиопроцессор внешней акустической системы, поэтому аудиопроцессор телевизора не участвует в этом процессе.
Если вы используете высококлассный саундбар или внешние колонки 7.1 или 5.1, для получения наилучшего качества звука следует использовать Bitstream.
Если вы не используете высококлассные аудиоустройства, вам следует использовать PCM.
Как изменить формат аудиовхода на телевизоре
EBU R128/BS.1770-3: Пакетная нормализация громкости аудио/видео файлов
Всем привет!
Решил поделиться опытом автоматизации контроля громкости вещания своего СМИ. Думаю, у всех профильных технарей давно болит голова, точно продолжает болеть. Введенная Минкомсвязи рекомендация в области нормирования громкости звуковых сигналов вызвала волны возмущения.
Не было предоставлено ни средств контроля, ни средств производства. Крутитесь как хотите.
Впрочем, уже давно, задолго до того знакового события существуют различные плагины к монтажным программам.
Но как быть если уже накоплена огроменная медиабаза?
Побродил я по просторам интернета и наткнулся на очень, по моему мнению, элегантное решение. Причем, к радости моей, это оказалось свободное ПО. Проект называется r128gain.
r128gain измеряет громкость аудио файлов в единицах измерения LUFS. Понимает она, насколько я выяснил, два формата:
1. Используя утилиту SoX — Sound eXchange, получить причесанный звук:
2. Используя утилиту FFmpeg заменить/добавить аудиодорожку к фидеофайлу:
Я выбрал первый вариант. Чтобы выделить звук из моих видеофайлов, я использую ffmpeg:
Сборка готового видео файла. Так как кроме старых файлов имеется постоянный поток сторонних, приводим к единому формату. У меня используется такой стандарт:
На выходе получаем продукт в едином формате.
Спасибо за внимание! Надеюсь, моя статья окажется для вас полезной.