Tasa de muestreo y profundidad de bits
En especificaciones de software y hardware de sonido y audio se nos
habla, a menudo, de capacidades de procesamiento de hasta 96kHz y funcionamiento a 64bits, pero ¿qué significan
realmente estas cuestiones? y ¿cómo afectan a la calidad de nuestro sonido?
Tasa de muestreo y rango de frecuencia
La
velocidad de muestreo es la frecuencia con que el convertidor A/D (analógico a
digital) mide los niveles de una señal, las muestras son, a grandes rasgos
análogas a una serie de instantáneas. Si el convertidor toma diez muestras de
la señal cada segundo, tendría una velocidad de muestreo de 10 Hz.
El rango de frecuencia que un convertidor A/D (presente en una
tarjeta de sonido por ejemplo) puede captar está determinado por la frecuencia de muestreo, o
velocidad de muestreo. Sin embargo, en esto existe una ley estricta que puede
parecer poco intuitiva: la frecuencia máxima que se puede captar es sólo la
mitad de la frecuencia de muestreo. Una velocidad de muestreo de 10
Hz puede capturar un máximo de frecuencia de 5 Hz, no de 10 Hz. La razón es que, sin el doble de muestras de una fuente de
sonido, se pierden algunas de las oscilaciones propias de la señal.
Pero ¿qué sucede si en la señal de audio analógica capturada
existen frecuencias mayores que la capacidad de nuestra frecuencia de muestreo? Se
produce entonces el aliasing, fenómenos que se da cuando la más alta frecuencia de muestreo que
ha sido muestreada es superior a las frecuencias que pueden ser capturadas con
precisión por el convertidor A/D. El aliasing añade distorsión a la señal de audio de forma artificial,
añadiendo frecuencias más bajas a las parciales más altas. El aliasing puede ocurrir en un
sistema de audio digital como consecuencia de un mal diseñado convertidor A/D,
pero es mucho más probable que lo oigas cuando toques notas altas de un
sintetizador basado en software. Si el sintetizador no utiliza una tecnología
antialiasing, las notas altas tienen posibilidades de convertirse en grupos al azar
de tonos que no tienen relación con la nota clave que estás tocando.
Los investigadores del Laboratiorio Bell están familiarizados con
este problema desde 1920 y conceptualizaron el principio como el teorema de
muestreo de Nyquist-Shannon. El teorema es simple: para muestrear correctamente el valor de
frecuencia de x, se
necesita una frecuencia de muestreo de al menos dos veces x. (La frecuencia máxima a la que se puede muestrear
sin aliasing a una cierta tasa de muestreo es, pues, la llamada frecuencia de Nyquist.) Así que ¿por qué
necesitamos que la velocidad de muestreo a sea dos veces más rápida que la
frecuencia más alta que se ha de grabar? Debido a que cada período ordinario de
una forma de onda incluye una oscilación hacia arriba y otra hacia abajo. Si el
convertidor A/D toma menos de dos muestras por período, no puede captar la
oscilación completa. Con el fin de capturar cada estado de "subida" y
de "bajada", necesitas tomar por lo menos dos muestras de cada
período. Así, la tasa de muestreo tiene que ser el doble de la frecuencia más alta
que debe ser registrada.
De acuerdo con el teorema de Nyquist-Shannon, para muestrear frecuencias que se encuentran en el límite
superior del oído humano (alrededor de 22000
Hz), necesitas una frecuencia de muestreo de alrededor
de 44000 Hz, que es, no por casualidad, la tasa normal de muestreo para CDs de
audio comercial, 44100 Hz.
Esto, obviamente, te permite muestrear las frecuencias de la parte
superior de la gama de nuestro oído, pero ¿que sucede cuando las frecuencias de
la señal que llegan al convertidor A/D superan el límite máximo de frecuencia
de 22 kHz? Se pliegan en el espectro audible como distorsión, por lo que los
convertidores A/D incorporan un filtro anti-aliasing que elimina estas
parciales altas, antes de que el audio se convierta a formato digital.
Profundidad de bits y la relación señal-ruido
La velocidad de muestreo nos indica cómo un convertidor A/D trabajo
en el tiempo, y por lo tanto la manera en que capta la información de la
frecuencia del eje "x" de los diagramas de forma de onda. La profundidad de bits determina
la cantidad de detalle que se puede grabar sobre el nivel entrante de la señal,
el eje "y", de los diagramas.
Con cada muestra, el convertidor A/D debe medir el nivel de la
señal entrante y asignarle uno de entre un grupo de números. Por ejemplo, si el
convertidor puede grabar un número entero entre uno y ocho (es decir,
redondeando cada valor debe asignarse a 1, 2, 3, 4, 5, 6, 7 u 8), entonces su profundidad de bits es de 3 bits. El conversor se
limita a estos valores discretos. No se puede grabar la señal de que haya entre
dos y tres, sino que se debe redondear a uno u otro. Huelga decir, que 3 bits
no son ni de cerca lo suficientemente; convertidores de 8-bit y 12-bit se utilizan en muchos
dispositivos de audio digital, y los convertidores de 16-bits y 24- bits son los más comunes.
Con cada bit añadido, el número de posibles niveles de presión sonora que se
pueden almacenar se dobla, un sistema con 16
bits de audio cuenta con más de
65000 niveles posibles de resolución; uno con 24 bits tiene más de 16
millones. Probablemente has experimentado lo que sucede cuando reduces la
profundidad de bits hablando por un teléfono móvil: el sonido se vuelve más
ruidosos y menos claro.
El impacto directo de la profundidad
de bits en la captura de la señal se produce sobre el rango dinámico: cuanto
mayor sea la profundidad de bits, mayor rango de dinámica o niveles de amplitud puedes capturar
antes de que la señal se sumerja en el ruido de fondo. El rango dinámico es obviamente
importante, teniendo en cuenta el nivel de rangos dinámicos que nuestros oídos
pueden escuchar. Pero su importancia real es que, cuando el número de posibles
niveles dinámicos es limitado por el uso de un convertidor con una profundidad
de bits baja, la medida de la señal dinámica se vuelve inexacta. Esta
inexactitud es percibida por nuestros oídos como ruido. Nosotros oímos los
errores creados por el redondeo de los números, llamado errores de
cuantización, como ruido.
Sí incrementamos el rango
dinámico de sistema de audio digital usando una
profundidad de bits mayor, reducimos efectivamente la cantidad de error de
cuantización en el sistema: la diferencia entre la señal con más volumen que el
sistema puede manejar y el ruido residual es mayor. Cuanto mayor sea la
profundidad de bits, mayor es el rango dinámico, y mayor será la relación
señal/ruido del sistema.
La resolución de audio digital se mide en términos de frecuencia de
muestreo (relacionado con el rango de frecuencias del sonido y medido en kHz) y
la profundidad de bits (relacionadas con amplitud y se mide en bits). Estos
valores son más o menos equivalentes a la resolución de la imagen y la
profundidad de color en los gráficos digitales.
Cualquier número es teóricamente posible para estos valores, y se
pueden mezclar y combinar frecuencia de muestreo y profundidades de bits, pero
las configuraciones que encontrarás la mayoría de las veces son:
• 16 bits, 44,1 kHz: El estándar para CD de audio comercial. También se usa para CD-Rs
de consumo y el más común por defecto para software de audio de ordenador.
• 16 bits a 48 kHz: El estándar para el vídeo digital (DV), videos DVD comerciales, y
radiodifusión de vídeo digital.
• 24 bits a 96 kHz: El formato emergente de alta resolución cada vez más soportado
por audio software y hardware, aunque todavía no se generaliza la adopción de
un estándar en el mercado de consumo para escuchar música.
Puede parecer un contra sentido que necesites trabajar con audio
capaz de manipular frecuencias por encima de la más alta frecuencia que puedes
escuchar. Hay tres razones por las cuales podrías querer frecuencias de
muestreo de hasta 96 kHz o mayores, sin embargo.
La primera razón, aunque es debatida, es que las frecuencias inaudibles superiores
a 22 kHz pueden tener un impacto en el sonido en el espectro audible,
haciendo la salida de audio a 6kHz
el sonido suena mejor o más preciso que a 44,1 kHz. Eso es en general una
cuestión de opinión:
algunos afirman que pueden escuchar esta diferencia, otros no pueden.
La segunda razón es más concreta: algunos algoritmos de audio digital, en particular
los relacionados con procesamientos intensivos numéricos como el estiramiento y
el cambio de tono, logran mejores resultados cuando se tienen más datos.
La tercera razón es igualmente importante: aunque es discutible si las frecuencias
altas influyen directamente en el espectro audible de un modo significativo, la
distorsión de fase introducida por el filtro anti-aliasing es mucho menos probable
que se produzca en el rango de frecuencias audibles cuando la tasa de muestreo
es mayor.
La ausencia de esta distorsión puede resultar en un sutil pero
notable cambio en la percepción de la claridad. Esto no significa que debas
inmediatamente comenzar a grabar todo a 96
kHz, sobre todo teniendo en cuenta que será
costoso en espacio en el disco duro y capacidad de procesamiento. Pero sí
significa que hay alguna diferencia entre las frecuencias de muestreo, y que
hay una razón por la cual los estudios profesionales pagan un buen dinero por
los equipos que pueden operar a más altas frecuencias de muestreo.
Escrito por
Sonoradj, DjProductor