Основными параметрами, влияющими на качество цифровой звукозаписи, являются:

§ Разрядность АЦП и ЦАП.

§ Частота дискретизации АЦП и ЦАП.

§ Джиттер АЦП и ЦАП

§ Передискретизация

Также немаловажными остаются параметры аналогового тракта цифровых устройств звукозаписи и звуковоспроизведения:

§ Отношение сигнал/шум

§ Коэффициент нелинейных искажений

§ Интермодуляционные искажения

§ Неравномерность амплитудно-частотной характеристики

§ Взаимопроникновение каналов

§ Динамический диапазон

Техника цифровой звукозаписи

Запись цифрового звука в настоящее время осуществляется на студиях звукозаписи, под управлением персональных компьютеров и другой дорогостоящей и качественной аппаратуры. Также довольно широко развито понятие «домашней студии», в которой применяется профессиональное и полупрофессиональное звукозаписывающее оборудование, позволяющее создавать качественные записи в домашних условиях.

Применяются звуковые карты в составе компьютеров, которые производят обработку в своих АЦП и ЦАП - чаще всего в 24 битах и 96 кГц, дальнейшее повышение битности и частоты дискретизации, практически не увеличивает качества записи.

Существует целый класс компьютерных программ - звуковых редакторов, которые позволяют, работать со звуком:

§ записывать входящий звуковой поток

§ создавать (генерировать) звук

§ изменять существующую запись (добавлять сэмплы, изменять тембр, скорость звука, вырезать части и т.п.)

§ перезаписывать из одного формата в другой

§ конвертировать конвертировать разные аудиокодеки

Некоторые простые программы, позволяют осуществлять только конвертацию форматов и кодеков.

Разновидности цифровых аудиоформатов

Существуют различные понятия звукового формата.

Формат представления звуковых данных в цифровом виде зависит от способа квантования цифро-аналоговым преобразователем (ЦАП). В звукотехнике в настоящее время наиболее распространены два вида квантования:

§ импульсно-кодовая модуляция

§ сигма-дельта-модуляция

Зачастую разрядность квантования и частоту дискретизации указывают для различных звуковых устройств записи и воспроизведения как формат представления цифрового звука (24 бита/192 кГц; 16 бит/48 кГц).

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Для устранения избыточности аудио данных используются аудиокодеки, при помощи которых производится сжатие аудиоданных. Выделяют три группы звуковых форматов файлов:

§ аудиоформаты без сжатия, такие как WAV, AIFF

§ аудиоформаты со сжатием без потерь (APE, FLAC)

§ аудиоформаты, с применением сжатия с потерями (mp3, ogg)

Особняком стоят модульные музыкальные форматы файлов. Созданные синтетически или из сэмплов заранее записанных живых инструментов, они, в основном, служат для создания современной электронной музыки (MOD). Также сюда можно отнести формат MIDI, который не является звукозаписью, но при этом с помощью секвенсора позволяет записывать и воспроизводить музыку, используя определенный набор команд в текстовом виде.

Форматы носителей цифрового звука применяют как для массового распространения звуковых записей (CD, SACD), так и в профессиональной звукозаписи (DAT, минидиск).

Для систем пространственного звучания также можно выделить форматы звука, в основном являющиеся звуковым многоканальным сопровождением к кинофильмам. Такие системы имеют целые семейства форматов от двух крупных конкурирующих компаний Digital Theater Systems Inc. - DTS и Dolby Laboratories Inc. - Dolby Digital.

Также форматом называют количество каналов в системах многоканального звука (5.1; 7.1). Изначально такая система была разработана для кинотеатров, но впоследствии была расширена Программный кодек

Аудиокодек на программном уровне

§ G.723.1 - один из базовых кодеков для приложений IP-телефонии

§ G.729 - патентованный узкополосный кодек, который применяется для цифрового представления речи

§ Internet Low Bitrate Codec (iLBC) - популярный свободный кодек для IP-телефонии (в частности, для Skype и Google Talk)

Аудиокодек (англ. Audio codec ; аудио кодер/декодер) - компьютерная программа или аппаратное средство, предназначенное для кодирования или декодирования аудиоданных.

Программный кодек

Аудиокодек на программном уровне является специализированной компьютерной программой, кодеком, который сжимает (производит компрессию) или разжимает (производит декомпрессию) цифровые звуковые данные в соответствии с файловым звуковым форматом или потоковым звуковым форматом. Задача аудиокодека как компрессора заключается в предоставлении аудиосигнала с заданным качеством/точностью и минимально возможным размером. Благодаря сжатию уменьшается объём пространства, требуемого для хранения аудиоданных, а также возможно снизить полосу пропускания канала, по которому передаются аудиоданные. Большинство аудиокодеков осуществлены как программные библиотеки, которые взаимодействуют с одним или несколькими аудиоплеерами, такими как QuickTime Player, XMMS, Winamp, VLC media player, MPlayer или Windows Media Player.

Популярные программные аудиокодеки по областям применения:

§ MPEG-1 Layer III (MP3) - проприетарный кодек аудиозаписей (музыка, аудиокниги и т. п.) для компьютерной техники и цифровых проигрывателей

§ Ogg Vorbis (OGG) - второй по популярности формат, широко используется в компьютерных играх и в файлообменных сетях для передачи музыки

§ GSM-FR - первый цифровой стандарт кодирования речи, использованный в телефонах GSM

§ Adaptive multi rate (AMR) - запись человеческого голоса в мобильных телефонах и других мобильных устройствах

Мой дедушка слушал граммофон. Молодость отца прошла под музыку, доносившуюся из динамика катушечного магнитофона. На мою молодость пришелся расцвет и закат кассетных магнитофонов. Мой сын растет в эру цифрового звука. Чтобы не отставать от времени, и обеспечить сына хорошим «звуком», решил разобраться, от чего зависит качество воспроизведения цифрового аудио сигнала.

Пообщался с друзьями меломанами. Провел информационный поиск в Интернете. В итоге пришел к выводу, что качественного звучания в цифровую эру можно добиться, если правильно выбрать 7 основных элементов современных музыкальных центров:

  • формат, в котором записана музыка;
  • проигрыватель;
  • цифро-аналоговый преобразователь;
  • усилитель;
  • акустику;
  • кабели;
  • питание.

Поделюсь ниже своими наблюдениями и выводами по поводу достижения качественного звучания записей в цифровых форматах.

Лирическое отступление, экспертам можно не читать.

В двух словах объясню, откуда берется звук в цифровом формате. В процессе звукозаписи микрофон преобразует механические колебания (собственно звук) в аналоговый электрический сигнал. Аналоговый сигнал в самом общем случае похож на синусоиду, которая всем нам знакома со времен средней школы. В эру аналогового звука именно этот сигнал записывался на различные носители и затем воспроизводился.

С развитием микропроцессорной техники появилась возможность записывать и хранить аудиоинформацию в цифровых форматах. Получают эти форматы с помощью процесса аналого-цифрового преобразования (АЦП).

В ходе АЦП аналоговый сигнал (нашу синусоиду из средней школы) преобразуют в дискретный (проще говоря, разрезают на части). На следующем этапе дискретный сигнал квантуют, т.е. каждому получившемуся отрезку синусоиды сопоставляют цифровое значение. На третьем этапе квантованный сигнал оцифровывают, т.е. кодируют в виде последовательности 0 и 1. Применительно к цифровой звукозаписи оцифровке подвергаются сведения об амплитуде и частоте звука.

Для записи и хранения цифровой аудиоинформации применяют цифровые аудиоформаты. Под аудиоформатом понимают набор требований к представлению звуковых данных в цифровом виде.

При рассуждении о качестве звучания цифровые форматы делят на 3 категории:

  • Форматы без дополнительного сжатия (CDDA, DSD, WAV, AIFF и др.);
  • Форматы, сжатые без потери качества (FLAC, WavPack, ADX и др.);
  • Форматы, в которых применено сжатие с потерями (MP3, AAC, RealAudio и др.).

Звук высокого качества получается при воспроизведении музыки, сохраненной в форматах из первой и второй категорий. В форматах третьей категории, для уменьшения объема данных, намеренно исключают часть информации. Например, информацию о скрытых частотах.

Скрытыми называют частоты, лежащие за пределами диапазона восприятия среднестатистического человека: 20 Гц – 22 кГц. Для аудиофилов этот диапазон в силу индивидуальных психофизиологических особенностей бывает шире.

Для комплектации домашней аудиотеки следует выбирать записи, сохраненные в файлах с расширениями:

  • *.wav, *.dff, *.dsf, *.aif, *.aiff – это файлы со звуком без сжатия;
  • *.mp4, *.flac, *.ape, *.wma – это наиболее распространенные файлы со звуком, сжатым без потерь.

Из истории. Говорят, что самые первые опыты по сохранению звука проводили еще древние греки. Они пытались сохранить звук в амфорах. Выглядело это примерно так: в амфору произносили слова и быстро её закупоривали. Увы, не одной такой записи не дошло до наших дней.

Выбор проигрывателя нужно начинать с понимания, в каком виде будет формироваться домашняя аудиотека. Можно по старинке покупать компакт-диски или перейти к приобретению любимой музыки через Интернет. Последний вариант имеет два весомых преимущества. Он компактен и экологичен:

  • Не встает вопрос о месте в квартире для хранения компакт дисков.
  • Не нужно выбрасывать неисправные диски в мусор.

Определились, как покупать музыку? Отлично! Если будете покупать диски – Вам нужен проигрыватель компакт-дисков. Если предпочитаете покупки через Интернет – ищите проигрыватель на жестком диске или флешпамяти. Не определились? Отлично! Ищите универсальный проигрыватель. На таком можно и диски, и файлы, купленные через сеть, послушать.

Естественно, можно превратить в проигрыватель и персональный компьютер. Но этот вариант удобен тогда, когда компьютер действительно персональный. Перспектива конкуренции за место у клавиатуры и возможные конфликты существенно снизят удовольствие от прослушивания музыки в хорошем качестве.

При выборе проигрывателя особое внимание обратите на доступные разъемы. Чем больше вариантов разъемов, тем проще будет выбрать другие элементы музыкального центра.

Проигрыватель прочитал цифровую последовательность с компакт-диска или из файла. Теперь наступает самый математический момент воспроизведения цифрового звука. Цифровой сигнал преобразуется в аналоговый. Происходит эта матемагия в ЦАП, или цифро-аналоговом преобразователе.

ЦАП может быть встроен в проигрыватель или реализован в виде отдельного блока. Задаваясь целью получить звук высокого качества, нужно остановить свой выбор на втором варианте. Встроенный преобразователь обычно уступает отдельному по качеству. Внешний ЦАП имеет собственный блок питания, встроенный запитан от общего с проигрывателем источника. При использовании внешнего ЦАП на его работу почти не влияют помехи от проигрывателя и усилителя.

Внешний ЦАП по схемотехническим решениям реализуют в 4-х основных вариантах:

  • Широтно-импульсный модулятор;
  • Схема передискретизации;
  • Взвешивающего типа;
  • Лестничного типа, или цепная R-2R схема.

При таком богатстве выбора для достижения звучания высокого качества вариант R-2R оказывается безальтернативным. За счет специальной схемы, реализованной на прецизионных сопротивлениях, в ЦАП лестничного типа удается достичь очень высокой точности преобразования.

При выборе внешнего цифро-аналогового преобразователя следует обратить внимание на две основных характеристики:

  • Разрядность. Хорошо, если у выбранной модели она равна 24 битам.
  • Максимальная частота дискретизации. Очень хорошее значение 96 кГц, великолепное 192 кГц.

Для достижения качественного звучания вместе с акустической системой нужно покупать усилитель. По сути эти два элемента аудиоцентра работают как одно целое.

Немного теории. Усилитель это прибор, который предназначен для повышения мощности аналоговых сигналов звуковой частоты. Он позволяет согласовать сигнал, полученный с ЦАП, с возможностями акустики. По типу силовых элементов усилители мощности разделяют на ламповые и транзисторные. В каждой группе присутствуют приборы с обратной связью и без обратной связи. Введение обратной связи направлено на исправление искажений, которые вносит в усиливаемый сигнал сам усилитель. Однако при получении звука без искажений приходится смириться с потерей части динамического диапазона звука.

С точки зрения подбора тандема «акустика – усилитель» важна классификация последнего по типу характеристики силового элемента. Существуют усилители с триодной и пентодной характеристикой. Пентодные усилители бывают в ламповом и транзисторном исполнении. Они подходят для полочных или простых напольных акустических систем. Для чувствительной напольной акустики с диапазоном от 90 дБ лучше подбирать усилители с триодной характеристикой.

Еще до покупки нужно постараться добиться идеального баланса между возможностями усилителя и акустики. Лучше всего прямо в магазине попросить консультантов погонять выбранную акустическую систему совместно с разными усилителями. Выбрать нужно тот комплект, который больше понравился Вашему уху.

Что такое хорошая акустическая система – это самый запутанный вопрос. Выбор акустики зависит от индивидуальных особенностей слуха человека, параметров помещения, в котором будет размещена система, и финансовых возможностей. В этой системе с тремя переменными найти золотую середину очень непросто. Поэтому рассмотрим три принципиальных варианта решения задачи.

Решение первое. Бюджетное. Можно оснастить домашний аудиоцентр «полочными» акустическими системами. Эти небольшие по размеру системы можно разместить на книжной полке. Они удобны для маленького помещения. В силу малых размеров это еще и недорогой вариант. Существенный минус такого решения состоит в том, что «полочная» акустика не даст нормального звучания басов.

Решение второе. Роскошное. Если позволяют габариты помещения и финансовые возможности, то можно купить напольную акустику. Эта система, благодаря размерам, может содержать низкочастотный динамик большого диаметра. Значит, есть шансы насладиться хорошими басами.

Решение третье. «Золотой» компромисс. Это решение подойдет для больших и маленьких помещений и приемлемо по цене. Состоит оно в приобретении сабвуфера и сателлитов. Сабвуфер отвечает за качественное воспроизведение басов. На стеллитах идет воспроизведение высоких частот.

При выборе акустики не стоит следовать никаким советам. Нужно опираться только на свой собственный слух. Еще нужно быть готовым к тому, что звучание акустики в магазине и в вашей квартире будет различным.

Выбор соединительных проводников – это вопрос, который неизбежно придется решать для достижения качественного звука. О влиянии кабеля на звучание написано много статей. Единственное, в чем авторы достигли единства, это в требовании к длине кабеля. Чем короче, тем лучше – вот золотое правило выбора соединительных кабелей.

Немного теории. Кабели подразделяют на межблочные и акустические. Межблочные служат для соединения блоков аудиоцентра, например проигрывателя и ЦАП. Акустическими кабелями осуществляется подключение акустической системы к усилителю мощности.

По типу материала проводника кабели разделяют на OFC, OCC и композитные. OFC – это кабели из бескислородной меди, полученные методом протяжки. OCC – это кабели из монокристаллической меди, полученной напрямую из расплава. Композитные – это кабели, в которых проводник состоит из нескольких материалов.

Если вы задались целью создать идеальный аудиоцентр из блоков разных производителей, постарайтесь использовать минимальные по длине соединительные кабели. И будьте готовы экспериментировать для достижения идеального качества звучания.

Наконец наш домашний комплекс для качественного воспроизведения музыки в цифровом формате собран. Теперь остался сущий пустяк. Для хорошей аппаратуры нужно качественное электропитание. Если самые дорогие «брендовые» усилители, ЦАП, проигрыватели запитать от общей сети, то ни о каком качественном звуке речи быть не может. Загрязненное помехами напряжение убьет все усилия по подбору и покупке качественных блоков для аудиоцентра.

Организуйте питание каждого блока отдельным кабелем. Кабели нужно подключить непосредственно к распределительному щитку на вводе в жилище. Розетки для подключения должны обеспечивать высокую степень фиксации штепселя. Разумно использовать сетевой фильтр, он сделает питание, а, следовательно, и звучание более чистым.

Все усилия конструкторов радиовещательных приемников направлены на достижение наиболее естественного и чистого звучания радиопередачи. Но что значит «естественное звучание»? От чего оно зависит? Многие считают, что качество звучания зависит только от громкоговорителя. Конечно, качество гром­коговорителя играет большую роль. Очевидно, что радиопередача «идеально ес­тественна», если она будет звучать абсолютно так же, как, например, в студии перед микрофоном.

Звуковые колебания создаются в радиоприемнике громкоговорителем. Имен­но поэтому качество громкоговорителя (т. е. его способность создавать опре­деленные по форме звуковые колебания воздуха) играет большую роль в работе радиоприемника. Однако чтобы громкоговоритель работал, надо подвести к его звуковой катушке определенные по форме колебания электрического тока. Та­ким образом, воспроизведение передачи радиоприемником зависит не только от качества громкоговорителя, но и от того, насколько колебания электрического, тока, подводимые к звуковой катушке громкоговорителя, соответствуют по фор­ме электрическим колебаниям тока микрофона в студии радиостанция.

В природе очень редко можно встретить абсолютно однотонный звук, т.- е. звук, представляющий собой колебания только одной частоты. Наша речь, раз­личные шумы, а тем более звучание музыкальных произведений - это слож­нейшее сочетание звуков различных частот и интенсивностей. Даже когда певец или солирующий музыкальный инструмент берет какую-то одну ноту, то она состоит не только из колебаний одной частоты, синусоидальных по форме, а из набора колебаний различных частот. При этом главную роль играют коле­бания основной частоты и наибольшей амплитуды. Именно эти колебания опре­деляют общий тон ноты, т. е. высокий звук или низкий, но кроме основного колебания в звуке присутствует множество так называемых обертонов, созда­ющих звуковую окраску. Обертоны - это колебания различных частот, кото­рые по амплитуде обычно много меньше колебаний основной частоты. Если лишить звук обертонов, он станет неузнаваем, потеряет естественность. Вспомни­те, как различаются голоса Лемешева и Козловского, а ведь это тенора, т. е. люди, обладающие высоким певческим голосом. Если сравнить осциллограммы их основных звуковых колебаний, то они одинаковы - ведь певцы берут одну и ту же ноту, по частоте одинаковую. Различаем же мы их голоса потому, что у них разные обертоны. Поэтому очень важно передать их без искажений; только тогда радиопередача будет звучать естественно. Но это означает, что надо передавать целую полосу частот, причем не изменяя частоты и соотно­шения амплитуд колебаний. При любом же изменении частотного состава пе­редаваемого звука или изменении соотношения амплитуд составляющих коле­баний появляются искажения.

Какова же связь между низкочастотными колебаниями звукового диапа­зона и высокочастотными радиодиапазона? Чтобы представить себе эту связь, надо подробнее рассмотреть модуляцию. Существуют различные способы моду­ляции. В радиовещании применяют амплитудную (AM) и частотную (ЧМ) модуляцию. Частотную используют только при радиовещании на УКВ; значительно шире применяют AM - в радиовещании в диапазонах длинных (ДВ), средних (СВ) и коротких (KB) волн. При AM низкочастотный (модулирующий) электрический сигнал воздейст­вует на амплитуду высокочастотного сигнала передатчика, называемого в данном случае сигналом весущей частоты. Амплитуда высокочастотных колеба­ний несущей частоты изменяется в такт с изменениями модулирующего сигнала.

Рис. 24. Форма высокочас­тотного сигнала при AM

Рис. 25. Модулированное колебание

На рис. 24,а показан график сигнала несущей частоты передатчика при от­сутствии модуляции. Но как только появится модулирующий сигнал звуковой частоты (рис. 24,6), форма огибающей высокочастотного напряжения становит­ся похожей на форму звукового модулирующего сигнала (рис. 24,в). (Огиба­ющей.называется кривая, соединяющая амплитудные значения модулированного высокочастотного сигнала).

Таким образом, происходит значительное усложнение формы высокочастот­ного сигнала передатчика, он перестает быть строго синусоидальным. Но всякое нарушение синусоидальности формы колебаний, как мы уже знаем, привадит к появлению новых колебаний с частотами, отличными от частоты основного ко­лебания. Иначе говоря, модулированное колебание - это целый спектр коле­баний с различными частотами. Когда модуляции нет, радиостанция излучает только колебания одной частоты - высокочастотной несущей, например 200 кГц. Но как только началась модуляция, напрвмер гармоническим сигналом с часто­той 1 кГц, то кроме колебаний с частотой 200 кГц в спектре сигнала радио­станции появятся колебания еще двух частот, отстоящие от основного коле­бания на - 1 кГц и +1 кГц, т. е. радиостанция будет излучать уже три ко­лебания с частотами 199, 200 и 201 кГц (рис. 25). Отсюда следует, что если модулированное колебание представляет собой опектр частот, то чтобы не воз­никло искажений, высокочастотные каскады должны пропустить весь опектр, т. е. частоты от 199 до 201 кГц. Другими славами, высокочастотные каскады должны обладать определенной полосой пропускания - в данном случае 2 кГп.

Рис. 26. Полоса частот 30 кГц, необходимая для передачи всего спектра мо­дулированного сигнала с максимальной частотой мо­дуляции 15 кГц

Рис. 27. Полоса частот 10 кГц, от­водимая на одну радиостанцию

Весь слышимый человеком звуковой диапазон составляет около 15 кГц (20 -15 000 Гц). Следовательно, сигнал радиостанции может быть модулиро­ван самыми разнообразными по частоте колебаниями, причем наивысшая из модулирующих частот может достигать 15 кГц. Поэтому модулированный сиг-аал будет представлять собой спектр колебаний, в нашем примере - от 185 до 215 кГц, т. е. занимать полосу частот 30 кГц (рис. 26). Однако сегодня столь широкий спектр излучаемых колебаний радиостанции, работающие с AM, не могут себе позволить. Международными соглашениями предусмотрено такое распределение частот между различными радиовещательными станциями, при котором их несущие отстоят одна от другой на 10 кГц (в диашзоне KB - на 5 кГц). Таким образам на долю каждой радиостанции приходится полоса всего 10 кГц (рис. 27). Это, конечно, мало для высококачественного радиовещания, но приходится мириться.

Итак, какие же требования предъявляются к приемнику, чтобы он безуко­ризненно воспроизводил радиопередачу?

Звук в современном мире играет все боле важную роль, уже давно оторвавшись от тесной привязки к изображению возникшей в период расцвета телевидения и кино. Современное мультимедийное оборудование обладает широчайшими возможностями не только по его воспроизведению, но даже по изменению звука. Он уже перестал быть мертвой записью, статичным воспроизведением давно прошедших событий, намертво запечатленным на своем носителе. Важнейшую роль в преображении наших представлений о звуке сыграло развитие цифрового способа записи звука, преобразовании его в поток данных, с которым можно легко и непринужденно оперировать современными устройствами.

Форматы: каким бывает цифровой звук

В каждом из продающихся на сегодня мультимедийных устройств, будь то CD-плеер, диктофон, или плеер на флэш-памяти, используется множество самых различных видов представления потоков данных, которые преобразуются затем в звук. А уж форматов звука, используемых в профессиональных целях, придумано и того больше. Неискушенный покупатель вынужден черпать информацию об обозначениях на коробках и устройствах из самых разных источников, зачастую получая неверные сведения или запутываясь еще больше.

Практически каждое устройство из раздела каталога поддерживает сразу несколько форматов звука, а многие устройства, не относящиеся к этой категории, также снабжены надписями о поддержке воспроизведения звуковых файлов. Для того чтобы помочь нашему читателю, мы решили создать небольшой глоссарий сокращений и рассказать о наиболее распространенных форматах. Мы планируем сделать его открытым для пополнения и поправок, добавляя новые форматы и более подробно описывая преимущества и недостатки уже распространенных или забытых.

Немного теории

Для начала следует напомнить, что цифровой звук – это не более чем набор цифр. Определяющим фактором является система, с помощью которой звук как давление воздуха был преобразован в потоки данных и закодирован для последующей обработки и воспроизведения. Соответственно, цифровой звук обычно заключен в компьютерных файлах с различным расширением, по которому чаще всего (но не всегда) и можно определить его формат. А само понятие формата может иметь, как это ни парадоксально, два смысла. Во-первых, формат может существовать как всеобъемлющая характеристика, включающая в себя и тип, и физические характеристики носителя (диска или кассеты), способа записи, принципов кодирования и защиты от ошибок. Во-вторых, под форматом можно понимать только сам способ кодирования и сжатия звука, так как для переноса используются стандартные средства, например, компьютер.

Аналоговый звук, в отличие от цифрового, воспроизводится в аналоговых устройствах и имеет ряд существенных отличий. Не являясь потоком данных, аналоговый звук представляется непрерывным электрическим сигналом, отображающим изменение звуковой волны. Для перевода его в цифровой формат звук «оцифровывается», то есть разбивается на определенные отрезки, в которых фиксируется числовое значение амплитуды в данный момент. Мы не будем углубляться в принципы создания цифрового звука, однако совершенно необходимо отметить, что чем чаще происходит разбиение отрезка звука и описание его характеристик, тем яснее и полнее создается картина собственно звука.

Такой процесс порождает огромный поток данных, описывающих звук, и очевидно, что каждый формат цифрового звука является не больше чем компромиссом между необходимостью представить звук как можно более качественным и ограничениями объема памяти компьютера или устройства воспроизведения.

Еще немного теории. Человеческое ухо воспринимает в большинстве случаев звук с частотой не выше 22000 Гц, и для того чтобы его полностью описать в цифровом виде, требуется частота дискретизации не менее 44,1 кГц. Так как абсолютно точно определить значение сигнала в определенный момент времени невозможно, то при оцифровке происходит квантование, то есть замена реальных значений сигнала приближенными. Чем больше уровней квантования звука, тем точнее описывается уровень сигнала. В итоге каждый стандартный компакт-диск несет на себе звуковой сигнал с частотой дискретизации в те самые 44,1 кГц и уровнем квантования в 16 бит, а в некоторых устройствах производится дискретизация с частотой 48 кГц.

Биты, герцы, shaped dithering...

Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков (CD Audio) были приняты значения 44 кГц, 16 бит и 2 канала (т.е. стерео). Почему именно столько? В чём причина такого выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...

Разберёмся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике (весьма спорное утверждение, если учесть, что многие АЦП имеют 11 или 12 разрядный цифровой выход - прим. сост.).

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 децибел) до той наименьшей, которую позволяет передать разрешение, например, около минус 93 децибел для 16 битного аудио. Как ни странно, это сильно связано с уровнем шумов фонограммы. В принципе, для 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации . Дело в том, что при взятии цифровых значений мы всё время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка даёт нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную половине младшего разряда. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования (что является более точным названием, так как кодирование амплитуды называется квантованием, а дискретизацией называется процесс преобразования непрерывного сигнала в дискретную (импульсную) последовательность -- прим. сост.).

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 децибел (10 * log(2) = 6). Таким образом, обнуляя единички от старших разрядов к младшим, мы будем уменьшать уровень сигнала на шесть децибел. Понятно, что минимальный уровень сигнала (единичка в младшем разряде, а все остальные разряды - нули) (N-1)*6децибел, где N - разрядность отсчета (сэмпла). Для 16 разрядов получаем уровень самого слабого сигнала - 90 децибел.

Когда мы говорим "половина младшего разряда", мы имеем в виду не -90/2, а половину шага до следующего бита - то есть ещё на 3 децибела ниже, минус 93 децибел.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне половины младшего разряда, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на минус 93 децибел. Она может передавать сигналы и тише, но шум всё равно остаётся на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов минус 80 децибел - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и передавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как ни странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум минус 93 децибел - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 децибел) и обычным шумовым фоном в городе (30-50 децибел) составляет как раз около сотни децибел, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что ещё несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов квантования. Если мы можем расслышать уровень под минус 90 децибел в цифровой записи - мы услышим и воспримем шумы квантования, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 децибел, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering , можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно ещё на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 децибел. Да и вообще - одновременно человек просто не может слышать звуки на 110 децибел тише, чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет сравнительно мало - около 80 децибел. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение (основанное на неверном понимании теоремы Котельникова-Найквиста), что при этом воспроизводятся все частоты вплоть до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не так идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАП (цифро-аналогового преобразователя, отвечающего за получение звукового сигнала из цифровой последовательности).

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

С высокими частотами все немного хуже, по крайней мере точно сложнее . Почти вся суть усовершенствований и усложнений ЦАП и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше.

Представим синусоидальный сигнал с частотой 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Процесс восстановления формы сигнала по отсчетам происходит и в ЦАП, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАП.Таким образом, чем ближе частота сигнала к одной второй частоты дискретизации, тем сложнее восстановить форму сигнала.

Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в устройствах профессионального класса, которые не то чтобы сильно дороже - просто они сделаны с умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум . Как ни странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Пусть в исходном 32х битном звуке самый высокий уровень звука соответствует минус 110 децибел. Это с запасом гораздо тише динамического диапазона 16 битного звука, для которого самый слабый различимый звук соответствует уровню минус 90 децибел. Поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.

Добавим в сигнал "белый" шум (т.е. широкополосный и равномерный по всей полосе частот) с уровнем минус 90 децибел, примерно соответствующий по уровню шумам квантования. Теперь, если преобразовать эту сместь сигнала и "белого" шума в 16 бит (возможны только целые значения - 0, 1, -1, ...), то окажется, что какая-то часть сигнала осталась. Там, где исходный сигнал имел больший уровень, больше единиц, где меньший - нулей.

Для экспериментальной проверки изложенного выше способа можно воспользоваться звуковым редактором Cool Edit (или любым другим, поддерживающим 32 битный формат). Чтобы услышать то, что получится, следует усилить сигнал на 14 бит (на 78 дБ).

Результат - зашумленный 16 битный звук, содержащий исходный сигнал, который имел уровень минус 110 децибел. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остаётся на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики... (Весьма ошибочное мнение, так как передача сигнала с уровнем, который меньше уровня шумов, - это один из фундаментальных методов кодирования данных. Прим. сост.)

Более сложный способ - shaped dithering , заключается в том, что раз мы всё равно не слышим высоких частот в очень тихих звуках, значит, следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться шумом более высокого уровня - я воспользуюсь уровнем в 4 младших разряда (два бита в 16 битном сигнале). Полученную смесь 32 битного сигнала и шума преобразуем в 16 битный сигнал, отфильтровываем верхние частоты (которые реально не воспринимаются человеком на слух) и повышаем уровень сигнала, чтобы можно было оценить результат.

Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с исходным уровнем минус 110 децибел! Важное замечание: мы повысили реальные шумы дискретизации с половины младшего разряда (-93 дБ) до четырёх младших разрядов (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось , но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум.

(Иными словами, поскольку мощность шума как бы "размазана" по частотному диапазону, то не пропуская верхние частоты, мы отбираем у него часть мощности, в результате чего во временном представлении сигналов улучшается соотношение сигнал/шум. - Прим. сост.)

Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук даёт возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нём игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Лёгкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Следует отметить, что эта технология действует только на этапе подготовки материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более минус 60 децибел - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.

Q:
Почему говорят, что 32-х битный звук качественнее 16 битного?
A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда . Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]
Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]
Q: Почему всё же идет внедрение больших частот и битности?
A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.
Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет . Качество преобразования нисколько не зависит от битности. В AC"97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука .
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от "лишних" 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.
Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума .
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен , так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.

Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведённые до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?..