pensées: L’audionumérique, Pt. II – Les Bases : le Monde Numérique

Salut salut !
J’espère que vous avez bien assimilé l’article précédent sur le domaine analogique. Même si ici tout ne sera pas utile, il est toujours bien de comprendre comment ça fonctionne « dans le vrai monde » avant de comprendre ce qui se passe lorsqu’on passe un signal en numérique.
J’expliquerai d’abord, à que c’est quoi que le numérique ?
Puis, je partirai sur les différents problèmes que l’on peut rencontrer.
Beaucoup de choses ^____^
On enclenche la Radio Lounge sur Jamendo, et on est parti !

Les bases du numérique

Une chose, avant tout, est très importante à comprendre : le numérique, ce n’est qu’un cas particulier de l’électronique, mais l’électronique, avec ses qualités et défauts, est TOUJOURS derrière les connexions numériques. Quand on parle du numérique, en pratique, c’est « un niveau d’abstraction » au dessus de l’analogique, mais les problèmes évoqués auparavant, impédance, bruit, etc… existent toujours. En revanche, ils n’ont pas forcément le même impact sur le son.
La première chose à laquelle on pense quand on parle du numérique, en général, c’est les 0 et les 1. A raison : il a été décidé que l’unité de base de l’information serait le bit. Pourquoi ? Tout simplement parce que c’est très facile à manipuler et que ça diminue les risques d’erreur. Mais, mais mais mais, il existe (plus dans la théorie que dans la pratique) d’autres manières de manipuler l’information (car c’est toujours d’information qu’on parle!), comme le Trit (je vous laisse deviner), ainsi que des prototypes d’ordinateurs et de processeurs analogiques, c’est à dire que l’information serait continue au lieu d’être échantillonnée.
Il existe aussi le q-bit de l’informatique quantique, mais les problèmes de l’informatique quantique (résolution de problèmes arborescents, etc…) s’appliquent assez difficilement au monde de l’audio (majoritairement linéaire, comme une partition…) donc je n’en parlerai pas ici.
Ainsi, toute l’information est convoyée sous forme de signaux électriques qui vont ressembler à des 0 et des 1. Beaucoup pensent qu’à l’oscilloscope ça ressemble à ça :

Signal carré

En pratique, c’est beaucoup moins parfait : le bruit, les éventuels passe-bas qui pourraient être présents sur le trajet du signal, vont faire qu’on va souvent devoir « régénérer » le signal avant de pouvoir s’en servir.
Bien entendu, les 0 et les 1 sont une allégorie pour représenter deux états, ça pourrait très bien être ouvert et fermé, rouge et noir, etc…
Mais intéressons-nous à la première des opérations qui se passe quand on rentre dans le numérique, j’ai nommé la…

Conversion analogique-digitale
Affectueusement nommée CAN, ou a/n, enfin, des choses dans ce goût !
Il y a plusieurs modes de conversion, réfléchissons notamment à comment on pourrait faire ? Par exemple, envoyer de l’information quand le signal dépasse un certain seuil. Mais ce n’est pas très utile en audio, vous en conviendrez ! Non, la méthode la plus usitée est la conversion delta-sigma. C’est en effet un type de conversion qui permet une grande précision au niveau de la tension d’entrée, c’est à dire que l’information pourra être stockée sur un nombre de bits élevés. C’est la définition, ou bit depth, à ne pas confondre avec le bitrate que nous aborderons plus tard. En revanche, elle ne permet pas d’utiliser une bande passante (spectre fréquentiel) très élevée. Heureusement pour nous, l’échelle de l’audition humaine n’est pas considérée comme une bande passante élevée ^_^.
Maintenant, peut-être que vous vous posez une question : à quelle vitesse convertit-on la musique ? En effet, les bits se suivent, et vous imaginez bien qu’ils doivent se suivre assez vite pour que l’on puisse écouter en temps réel de l’autre côté, après une conversion numérique / analogique. C’est là qu’intervient la fréquence. La fréquence maximale que peut entendre l’oreille humaine est d’environ 20khz (décroissant avec l’âge, la moyenne serait entre 16 et 18khz pour les adultes…).
Donc, la conversion doit se faire au moins à la fréquence maximale que l’on entend, c’est-à-dire 20 khz, vous êtes d’accord ?
Supposons que l’on ait une sinusoïde à 20khz :

Période complète d’une sinusoïde à 20khz

Vous vous imaginez représenter ça sur une seule sample ? Ça tombe bien, Nyquist non plus, dans son fameux théorème d’échantillonnage ^_^

« Pour représenter correctement un signal numérisé, la fréquence d’échantillonnage d’un signal doit être égale ou supérieure au double de la fréquence maximale contenue dans ce signal.«

L’abeille maléfique

Ça nous donne donc au minimum 40 khz comme fréquence d’échantillonage. En pratique, le plus petit multiple utilisé pour écouter de la musique sans dégradation audible de qualité est de 44100 hz, c’est notamment la fréquence d’échantillonnage des CD audio (avec une définition de 16 bits, c’est à dire que chaque échantillon peut être sur 2^16 « échelons », ce qui nous fait 65536 échelons et une profondeur dynamique maximale d’environ 96 décibels, c’est à dire que sur un cd audio, la différence de volume entre le son le plus fort et le plus faible est de 96 db). Bien entendu, ça n’a pas toujours été comme ça : les premières consoles, par exemple, échantillonnaient sur 11, 22, 32khz (comme la SNES par exemple)… (ou bien avaient des vrais synthétiseurs embarqués!).
Néanmoins, rien n’empêche de monter plus haut en fréquence, l’utilité en sera expliquée plus tard dans ce cours. Mais par exemple, il est courant qu’une carte son pro puisse monter jusqu’à 96 khz, voire 192khz. A quoi bon, me direz-vous puisque l’on n’entend rien au dessus de 20khz?
Je vous invite à lire cet article : http://jn.physiology.org/content/83/6/3548.abstract
Cependant, il faut aussi savoir que les convertisseurs perdent en précision quand la fréquence augmente. Cruel dilemme, n’est-ce pas ?
Maintenant, vous vous demandez peut-être pourquoi 44100 hz (48000 dans le cas du dvd) et pas 40000 tout court ? Pour des raisons que j’exposerai dans la deuxième partie de cette article, quand on passe quelque chose de l’analogique vers le numérique, on ne veut PAS qu’il y ait des fréquences supérieures à la fréquence d’échantillonnage. Il faut donc appliquer un filtre passe-bas au niveau de la fréquence maximale que l’on peut entendre, 20khz.
Je vous donne la tête (i.e. le diagramme de Bode) d’un filtre passe-bas théorique :

f0 est la fréquence de coupure du filtre.
Comme vous pouvez le voir, c’est loin d’être immédiat. On pourra parler d’ordre, ou de décibels par décade ou par octave pour exprimer la « vitesse » à laquelle le filtre va atténuer les fréquences. Dans le monde analogique, un filtre « brutal » qui couperait toutes les fréquences supérieures à f0 au hertz près ne peut exister. On laisse donc un « buffer » de 2050 Hz (44100 / 2 – 20000) sur lequel le filtre va pouvoir couper les toutes les fréquences, mais pas de manière immédiate, afin d’être à -96db quand on arrive à 22050 Hz.
Bon, maintenant, il faut que je vous dise que ce que je viens de vous expliquer, ce n’est qu’une des manières possible de convertir et de représenter un son numérisé, appelé encodage PCM. C’est quand même assez important vu que c’est l’encodage (à ne pas confondre avec le format de compression) choisi pour les CD audio, et la majorité des fichiers que vous trouverez sur votre ordinateur.
Il y a aussi les formats dédiés au home-cinema qui encapsulent parfois du PCM avec d’autres méta-données. Mais le plus différent est l’encodage sur 1 bit. Apparu il y a plus de 40 ans, il ne s’est jamais vraiment démocratisé, sauf sur un format, le Super-Audio-CD.

Mais mais mais 1 bit < 16 bit!
Ah, ça oui, mais je ne vous ai pas parlé de la fréquence d’échantillonnage! Qui est, en général, de 2.8 Mhz. Oui, méga-hertz, comme * 10^6 hertz.
En fait, contrairement au signal PCM qui est absolu, c’est à dire que chaque sample est codée sur un certain nombre de bits, qui, sur une carte son donnée équivaudra toujours à la même tension de sortie (enfin, à peu près hein!), l’encodage sur 1 bit est relatif. C’est à dire que chaque bit dit si on augmente ou diminue la valeur précédente (on ne peut pas rester constant).
Je vous laisse cependant lire les quelques lignes qui suivent : http://fr.wikipedia.org/wiki/Super_Audio_CD#Rivalit.C3.A9_.2F_concurrence_avec_le_PCMet qui expliqueront pourquoi je ne continue pas trop dans les explications : pour l’instant, le matériel gérant nativement les encodage DSD est quasiment inexistant. Néanmoins, le jour ou le DSD sera opérationnel en studio et accessible à tous, ça risque d’être une petite révolution dans le monde de l’audio

.
Je vais maintenant vous parler de la deuxième partie de la conversion du signal…

La Conversion Numérique -> Analogique
Aussi appellée CNA, NA, etc… Bref, ça sera moins long que précédemment puisque les principes de base ont déjà été exposés.
Le but d’un convertisseur numérique -> analogique, c’est donc quoi ? Vous vous doutez bien que l’on perd de l’information en passant de l’analogique au numérique puisque l’analogique est continu et que le numérique est discret.
On veut donc un moyen pour repasser d’un signal discret à un signal continu, comme ici :

Signal analogique à gauche, numérique à droite

Il faut donc recréer l’information « manquante » par une sorte de moyenne, ou de rampe. Les différentes techniques sont expliquées ici. Ce qu’il est bon de savoir, c’est une règle générale de l’audio : SHIT IN = SHIT OUT. Un mauvais convertisseur AN (ça n’existe plus trop de nos jours, sauf sur des cartes son honteuses, heureusement) ne rattrapera pas un très bon convertisseur NA. Ce qui distinguera en revanche un bon convertisseur d’un mauvais, ce sera toutes les caractéristiques évoquées dans l’article précédent : bruit, etc…
On désire aussi généralement une bonne séparation des canaux (et oui, c’est un petit retour analogique), aussi appelée channel bleed quand on a plusieurs canaux dans le même appareil : ce qui passe sur un canal risque de filtrer sur le canal le plus proche, ce qui aura tendance à réduire la stéréo, mais on peut en dire autant de n’importe quelle table de mixage.
Voilà pour l’audionumérique de base! Passons maintenant à ce qui va un peu plus nous embêter…

Les Problèmes du numérique

Je vais commencer par vous expliquer un problème sous-jacent à toute forme de transport de signal numérique, et qui est « dû » à la manière même de transmettre le signal, j’ai nommé le…

Jitter
Affectueusement nommé « gigue » par nos chers académiciens. A quoi est-ce que ça correspond ? Comme je vous l’ai dit, dans tous les cas, l’audio est converti en numérique ou analogique à une certaine fréquence, lasampling rate. Comment est-ce que fait le convertisseur pour être précis ? Eh bien, tous les xième de seconde, il reçoit une impulsion qui lui dit « c’est bon, tu peux convertir ». Cela s’appelle un signal d’horloge et c’est émis par une horloge.
(On finit l’album Eden de Faun et on passe à … Soreption). Et, une horloge, ce n’est jamais parfaitement précis, ça va toujours subir un petit décalage. Dans le cas ou on enregistre sur disque, ça n’a pas trop d’influence, même si ça cause une légère distorsion : en effet, supposons qu’il y ait un décalage de 5 nanosecondes de retard pour chaque sample: à chaque fois, un peu de courant sera « perdu » et on pourrait manquer un pic d’une durée inférieure à 5 ns, ce qui, vous me direz, n’est vraiment pas grave du tout. C’est pour cela que je vous enjoins à lire cet article :
http://www.madronadigital.com/Library/DigitalAudioJitter.html
Dans le cas d’un asservissement de l’entrée à la sortie, on se retrouve avec une perte d’UN BIT. Un bit, c’est pas rien du tout, c’est six décibels de dynamique…
Un autre article intéressant sur le phénomène: http://www.jitter.de/english/soundfr.html.
Et enfin, si vous voulez entendre : http://web.archive.org/web/20070816081238/http://www.pcabx.com/technical/jitter_power/index.htm

Personnellement, j’entends assez bien l’effet sur le jitter à -20db, moins à -40db, et quasiment plus au delà. C’est surtout à voir dans les aigus.
Une des choses à faire pour réduire le jitter quand on a plus de deux appareils numériques à connecter est de tout relier à une horloge maître externe. Hélas, ces périphériques coûtent souvent cher.
Passons maintenant à un deuxième problème, d’origine fréquentielle, j’ai nommé…

L’aliasing
Voici une vidéo (de pas très bonne qualité) mais ou on entend particulièrement ce problème (écoutez la définition et les aigus):
Aliasing audio
Ainsi qu’un article, ma foi plutôt bien écrit sur le sujet. L’idée principale est que lorsqu’on veut convertir un signal analogique vers un signal numérique, ou changer la fréquence d’échantillonnage d’un signal numérique, il faut ABSOLUMENT supprimer TOUT contenu fréquentiel au delà de la fréquence de Nyquist (la fréquence d’échantillonnage divisée par deux, 22050 hz dans le cas d’un CD par exemple). Sinon, le « son » au delà va se replier, comme par symétrie, du côté audible du spectre. Par exemple, si on échantillonne à 20khz et qu’on a un son à 30 khz, on entendra une « image » à 10 khz.
Il va de soit que, une fois « aliasée », une piste est foutue, il n’y a aucun traitement qui permette d’enlever uniquement les « images » puisque c’est du son au même titre que le reste.
Nous allons d’ailleurs nous attarder un instant sur la question du…

Rééchantillonage
Ou, grosso modo, comment passe-t-on d’un signal enregistré à 96khz vers un signal pour CD à 44,1 khz ?
Ce n’est pas simple et il existe différentes techniques et algorithmes (en voilà un, si vous avez envie de lire des maths) qui permettent de le faire. L’idée de base consiste à passer du signal sonore au spectre par une transformée de Fourier, de supprimer le contenu fréquentiel trop élevé et de réexporter le spectre en utilisant une fréquence d’échantillonnage différente. Néanmoins, qui dit différents algorithmes, dit différents niveaux d’effiicacité.
Il existe notamment un site qui permet de comparer les algorithmes de rééchantillonnage : http://src.infinitewave.ca/.
Je vous invite notamment à comparer les graphes de : Ableton Live 7, iZotope 64 bit SRC et SoX. L’un est un DAW à 500€, l’autre un algorithme présent dans des logiciels à 1k€ comme iZotope RX, le troisième une librairie open source. Lisez bien la page help pour comprendre ce que signifient chacun des graphes.

Dithering
Le dithering est souvent associé au rééchantillonnage, car c’est une opération qu’on essaye de faire uniquement en bout de chaîne, avant le pressage du disque. C’est une méthode qui a été trouvée pour réduire le nombre de bits d’un signal. En effet, on ne peut pas juste « tronquer » 8 bits quand on passe de 24 à 16 bits pour un rendu CD par exemple.
Je reprends l’exemple de Wikipédia pour montrer ce qui se passe si on applique la méthode bête de troncature :
Si, par exemple, on a un signal dont les samples successives ont les valeurs suivantes :

1 2 3 4 5 6 7 8

Si on diminue le volume de 20%, cela donne les valeurs :

0.8 1.6 2.4 3.2 4.0 4.8 5.6 6.4

Si maintenant on tronque ces valeurs (réduction du nombre de bits) :

0 1 2 3 4 4 5 6

De la distorsion est donc apparue dans le signal. Pour y remédier, on injecte du « bruit » dans le signal de manière à ce que la distorsion soit diminuée (on échange un mal contre un mal moins pire, en somme!). Les premiers algorithmes mettaient du bruit blanc, c’est-à-dire qu’il était équiréparti sur tout le spectre. Depuis, on a eu l’idée de repousser le bruit dans les zones ou on l’entend le moins, c’est à dire dans les aigus.
Voici un exemple audio rapide des effets du dithering. Il y a 4 extraits. Le premier, c’est la loop originale. Puis vient un dithering moyen sans noise shaping (envoi du bruit dans les aïgus) avec une quantification sur 8 bits (donc ce qu’on ne fait jamais en pratique). Puis le même dithering avec noise shaping, pour finir par une troncature brute sans dithering.
Voilà, grosso modo pour les bases générales. Je vais maintenant faire un dernier point sur…

Les connectiques

Les connections numériques utilisent souvent les mêmes cables que pour du transport de signal analogique, à la différence que l’impédance es toujours fixée. Ils peuvent aussi parfois passer par de la fibre optique (connecteurs TOSLINK), ce qui a l’avantage d’éviter toutes sortes de problèmes comme les boucles de masse, ou le bruit.
On a notamment, les signaux S/PDIF (très courant) qui peuvent transiter par RCA ou TOSLINK et transmettre deux canaux à 24 bits / 192 khz maximum, AES/EBU (la version professionnelle du S/PDIF) qui utilise des câbles XLR ou bien coaxiaux (BNC) pour des longues distances, ADAT qui est exclusivement optique et peut transmettre 8 canaux à 44.1 / 48khz et 4 canaux à 88.2 / 96khz, et enfin MADI qui peut transmettre jusqu’à 56 canaux par câble (mais les interfaces MADI coutent très cher).

Voilà, n’hésitez pas à poster des questions en commentaire et à partager, comme d’habitude ^_^

0 commentaires:

Auteur

Archives