Centre de recherches sur les communications Canada
Symbol of the Government of Canada

Traitement des signaux audio

Traitement des signaux audio

Nouveaux paradigmes de codage audio

Les technologies de codage audio à faible débit binaire se perfectionnent, ce qui permet une utilisation plus efficace de la bande passante disponible. On déploie un nombre croissant de services sans fil, comme la radio numérique, la télévision mobile et l'Internet sans fil, ce qui accroît la demande pour du spectre de radiofréquences. Cette nouvelle tendance exige des systèmes de codage de plus en plus efficaces afin de permettre aux radiodiffuseurs et aux entreprises de télécommunications d'augmenter leur nombre de services mis en onde tout en maintenant la qualité du son. Les techniques de codage audio traditionnelles ne parviennent pas à atteindre le débit binaire voulu. Par exemple, la norme de radio numérique EUREKA 147 DAB, déployée dans un certain nombre de pays à travers le monde, utilise le système de codage audio MPEG-1 Layer 2. Ce système exige un débit de 192 kbit/s pour encoder un signal audio stéréophonique avec une qualité sonore équivalente à celle d'un disque compact.

Depuis la normalisation des encodeurs audio MPEG-1 Layer 1, 2 et 3 au début des années 1990, d'autres techniques de codage audio plus efficaces ont été développées. La percée la plus importante a été la normalisation du codec MPEG AAC (Advanced Audio Coding) en 1997. Lors de tests d'écoute réalisés au Centre de recherches sur les communications (CRC) en 1997 pour évaluer les meilleurs codecs audio, l'encodeur AAC a surpassé les autres encodeurs audio. L'AAC offre une qualité sonore équivalente à celle d'un disque compact à un débit de 96 kbit/s comparativement à 192 kbit/s pour le MPEG-1 Layer 2 pour les signaux stéréophoniques, ce qui correspond à une diminution de 50 % du débit binaire.

L'encodeur audio présentement considéré à la fine pointe de la technologie est le MPEG HE AAC v2, une version perfectionnée du MPEG AAC. Dans le but d'accroître davantage l'efficacité de la compression du débit binaire, ce système utilise une technique appelée « reconstruction de bande spectrale » (SBR), pour encoder de façon paramétrique les hautes fréquences, ainsi qu'une technique nommée « stéréo paramétrique » (PS), pour encoder de manière paramétrique l'image stéréo. Les techniques SBR et le PS peuvent réduire le débit binaire par rapport à l'encodeur AAC ordinaire, mais il faut sacrifier une certaine qualité pour améliorer l'encodage, car, avec le SBR et le PS, on reproduit seulement une approximation des hautes fréquences et de l'image stéréo à la sortie du décodeur. C'est pourquoi le SBR et le PS sont utilisés pour les applications qui n'exigent pas une haute qualité sonore.

Presque tous les spécialistes audio s'entendent pour dire qu'on ne peut pas réduire de façon considérable le débit binaire en améliorant davantage les systèmes de codage audio actuels qui sont tous basés sur l'application d'une transformée fréquentielle (cosinus ou autre). Le CRC a donc commencé l'étude et l'élaboration de nouveaux paradigmes de codage audio. L'une des orientations prometteuses est le « codage audio par objets » où l'on tente de reproduire la façon dont le système auditif humain analyse et perçoit les sons. Dans cette approche, les attributs physiques des signaux audio sont convertis en quantités significatives sur le plan perceptuel et ces quantités sont ensuite divisées en groupes représentant des « objets audio ». De cette manière, on s'attend à réduire considérablement le débit binaire. Le codage audio par objets s'effectue à partir d'une représentation de l'activité des neurones sur le nerf auditif (« neural spikes »).

L'approche proposée repose sur la génération de représentations bidimensionnelles éparses bio-inspirées des signaux audio, représentations appelées « spikegrammes ». On applique également des modèles de masquage auditif pour réduire davantage le nombre de « spikes » dans le spikegramme. Le spikegramme est généré à l'aide de l'algorithme de poursuite perceptuelle par association (Perceptual Matching Pursuit (PMP)) que nous avons conçu. On regroupe enfin les « spikes » en objets audio (selon leurs dépendances) pour obtenir un encodage efficace. Dernièrement, notre Groupe a commencé des recherches sur l'échantillonnage compressé (Compressed Sampling) et son éventuelle application au codage efficace des représentations éparses temps fréquence des signaux audio. On vise un débit binaire inférieur à 60 kbit/s pour encoder des signaux stéréophoniques (échantillonnés à 44,1 kHz) avec une qualité supérieure à 4 (c.-à-d. qualité « radiodiffusion ») sur l'échelle de dégradation à cinq niveaux de l'UIT-R pour divers documents sonores cruciaux.

Séparation des sources audio

La séparation aveugle des sources (SAS) à partir de mixages convolutifs s'avère problématique pour de nombreuses applications où plusieurs microphones sont utilisés. L'un des cas populaires appartenant à cette catégorie est celui de l'effet « cocktail party ». L'être humain peut se concentrer sur une source sonore d'intérêt malgré l'environnement bruyant et perturbateur d'un cocktail. De nombreux algorithmes ont été mis au point pour composer avec ce genre de situations. Dans le même but, le CRC a commencé des recherches sur le développement et la mise en œuvre d'algorithmes visant à séparer des sources sonores multiples à partir d'enregistrements audio créés avec plusieurs microphones.

La catégorie la plus simple de SAS est la SAS instantanée, pour laquelle on ne suppose pas de trajets multiples dans le système de mixage. Dans les enregistrements réels, il faut composer avec des situations plus complexes où une matrice de filtres représente les réponses impulsionnelles reliant les microphones aux sources. Cela appartient à la catégorie de la SAS convolutive, pour laquelle il faut tenir compte d'un canal à trajets multiples dans le système de mixage. La solution à ce problème consiste à trouver le système de démixage le plus près possible de l'inverse du système de mixage.

Même si de nombreuses techniques de SAS ont été mises au point par plusieurs équipes de recherche, il reste encore à améliorer substantiellement la qualité des sources séparées. Cela est requis pour accroître l'intelligibilité de la parole extraite d'un mixage de plusieurs sources ou, de façon plus générale, pour réduire le brouillage produit par d'autres sources sur une source cible. Dans ce contexte, le CRC a mis au point des algorithmes pour améliorer l'intelligibilité des sources séparées en diminuant le brouillage des autres sources.

Tatouage audionumérique

La transmission numérique à large bande telle que l'Internet facilite la distribution et la copie d'enregistrements audio. La copie parfaite de fichiers audio a soulevé les questions de la protection de la propriété intellectuelle et de la prévention de la distribution non autorisée de données multimédias. On peut utiliser le tatouage numérique pour faire respecter les droits de propriété intellectuelle et empêcher la distribution illégale de documents. On peut aussi utiliser le tatouage numérique en radiodiffusion pour insérer des informations d'identification dans les données audionumériques et multimédias.

Le CRC travaille sur des techniques pour insérer des tatouages numériques dans des représentations éparses temps fréquence des signaux audio. Le tatouage doit être imperceptible et robuste et ne requérir qu'une faible complexité de mise en œuvre. Les algorithmes de tatouage du CRC exploitent les caractéristiques du système auditif humain pour parvenir à insérer des tatouages inaudibles dans les signaux audio.

Renseignements

Louis Thibault, gestionnaire
Systèmes audio de pointe
Centre de recherches sur les communications Canada
3701, avenue Carling, C.P. 11490, succursale H
Ottawa (Ontario) K2H 8S2 CANADA
Tél. : +1 613 990-4349 Téléc. : +1 613 993-9950
Courriel : louis.thibault@crc.gc.ca