Scattering transform et reseaux convolutionels pour l'identification du locuteur

Wajdi Ghezaiel & Luc Brun & Olivier Lezoray & Myriam Mokhtari.

Les assistants vocaux sont devenus très populaires ces der-nières années. Les utilisateurs peuvent contrôler ces ap-pareils intelligents par la voix et obtenir divers services. Combinés à la biométrie, ces dispositifs peuvent permettre de distinguer des profils utilisateurs et sécuriser l'usage de l'appareil. Dans ce scénario, quelques segments de dis-cours de courte durée (2-4 sec.) sont utilisés pour l'au-thentification. Afin de limiter le nombre de paramètres utili-sés pour l'apprentissage, nous proposons de combiner une Wavelet Scattering Transform (ST) et un réseau convolutif (CNN). Nos expérimentations montrent que la combinaison ST/CNN extrait efficacement les caractéristiques de l'iden-tité du locuteur sur des discours de courte durée. Mots Clef Assistant vocal, identification du locuteur, réseau de neurones convolutifs, réseau hybride.