Laboratoire sur la Gestion Electronique de Documents -LabGED- Welcome

Google

Yahoo

CARI-info

MESRS

Université Badji Mokhtar-Annaba

Equipe3

Menu principal

Infinite Menus, Copyright 2006, OpenCube Inc. All Rights Reserved.

Nous contacter
Tel: 0021338872678
Fax: 0021338872436

---------------------------------
LabGED
Université Badji Mokhtar
BP 12 - 23000 -  Annaba
Algérie

Directeur: Dr. Farah Nadir

farah@labged.net

 

      

        


Recherche reconnaissance et modélisation de documents sonores



Responsable de l'équipe: H, Bahi, MC

Thème de recherche: Recherche reconnaissance et modélisation de documents sonores

B
Nom Prenom Diplôme Grade Spécialité Structure de rattachement
Bahi Halima Doctorat d’état Maître de conférences IA Université de Badji Mokhtar-Annaba

Lachtar

Nadia Magister Maître Assistant B IA Université de Skikda

Benati

Nadia Magister Maître Assistant BGC et IA université de Souk Ahras
Mazouzi Faiz Master II Doctorant IA Université de Badji Mokhtar-Annaba

IA: Intelligence Artificielle
RO: Recherche Opérationnelle
GC: Gestion des Connaissances
Problématique scientifique et positionnement

La reconnaissance vocale ou ASR (Automatic Speech Recognition) est une technologie de transcription d'un système phonatoire organique exploitable par une machine. La reconnaissance vocale couplée à des méthodes de synthèse vocale, de commande vocale, d'identification vocale, et de compréhension forme un élément d'une interface homme-machine idéale. L’application au lexique Arabe est d’autant plus complexe considérant la nature de la langue et l’expérience, réduite la concernant.

Pour appréhender cette thématique plusieurs approches sont possibles entre autres les modèles de Markov cachés et les réseaux de neurones. Au cours de ce projet nous avons prospecté ces différentes approches et avons proposé un modèle de reconnaissance basé sur une combinaison des réseaux connexionnistes et des systèmes experts. Une des applications possibles, et qui est d'actualité, que nous prospectons également est la fouille de données audio.
Un systéme de reconnaissance vocale qu'il soit mono ou multi locuteurs, appliqué a la reconnaissance de mots isolé ou phonémes, il est matérialisé par les étapes suivantes:

  • Acquisition du signal
  • Traitement du signal
  • Extraction de caractéristiques
  • Classification

A l'issue de la classification une décision peut alors être prise. Les trois premières étapes sont généralement résolue par des méthodes mathématiques informatisées ou implémenter sous circuits intégrés, toutefois l'utilisation d'un types de classifieurs pour la reconnaissance vocale reste un domaine d'actualité. Surtout concernant la langue Arabe, ou a l'exception des travaux de Saeed et Namous [1,2] qui ont appliquées des méthodes dédié, au départ, pour la reconnaissance de formes et de l'écrit, qui ne connais pas une littérature fourni dans ce domaine.
Les chaînes de Markov cachées et les réseaux de neurones sont les deux paradigmes, parmis d'autres, qui sont largement utilisés par les experts en traitement de la parole, car ce sont deux techniques qui ont fait leurs preuves. Ces deux algorithmes nous ont donc paru comme étant les bons choix, du moins de départ, pour la thématique de cette équipe.

  1. Les Réseaux de neurones Artificiels (RNA) pour l'ASR

    Les réseaux de neurones artificiels (RNA) sont des systèmes basés sur des constructions en réseaux et en nœuds informatique relié ensemble imitant le fonctionnement des neurones humains. Les RNA peuvent être utilisées pour la classification ou la modélisation de données. Les classes semblables qui peuvent être des phonèmes, les sous unités de phonèmes les syllabes ou les mots pour le cas de la reconnaissance de la parole. Les RNA présentent une palette de constructions, de fonctions d'activations et d'algorithmes d'apprentissage qui peuvent être utilisés pour tel ou tel problème, comme la reconnaissance le clustering, création de classes, fouille de données vocales, etc. On peut citer:

    • Les réseaux Feedforward: avec des raccordement seulement vers l'avant du temps
    • Le perceptron multicouche (PMC): le réseaux le plus utilisé avec l'algorithme de retro-propagation.
    • Réseaux neurologique récurent: ou la sortie d'un neurone est multipliée par un poids et rétroagi aux entrées du neurone elle-même avec un retard
    • • Carte auto organisatrice: utilisées pour le clustering et l'identification des classes, ou chaque types d'entrée excite un nombre de neurones adjacents.

  2. Chaîne de Markov cachés (HMM)

    Les méthodes de comparaison par programmation dynamique ont été largement utilisées pour la reconnaissance de mots isolés. De plus, elles ont été étendues à la reconnaissance de séquences de mots enchaînés sans pause entre eux
    Il existe cependant d'autres solutions à ce problème de recalage temporel. La modélisation stochastique, en particulier sous forme de modèles Markoviens s'impose comme une solution viable. Dans cette approche, chaque mot du vocabulaire est représenté par une source de Markov capable d'émettre le signal vocal correspondant au mot. Les paramètres de cette source sous-jacente au processus d'émission d'un mot sont ajustés au cours d'une phase préalable d'apprentissage sur de très gros corpus de parole. La reconnaissance d'un mot inconnu consiste à déterminer la source ayant la probabilité la plus forte d'avoir émis ce mot. (Cf. p68-70 du livre "reconnaissance automatique de la parole" aux éditions DUNOD informatique pour une explication plus détaillée de cette méthode).

  3. Hybridation HMM et RNA

    Bien que les RNA se soit avéré tout a fait puissant et capable de classification statique de modèles, leurs formalisme n'est pas très bien convenu a adresser la reconnaissance de la parole automatique, a cause de la dimension temps qui est fortement variable et difficile a manipuler directement. Malgré cela plusieurs architectures RNA ont été développées pour la classification d'ordre (de temps), on peut citer [3]:

    • Réseaux statiques avec un amortisseur d'entrée pour transformer un modèle temporel en modèle spatiale
    • Réseaux récurent qui acceptent des vecteurs d'entrée séquentiellement et emploient une déclaration interne récurent qui est une fonction de l'entrée courante et de l'état interne précédent.
    • RNA a retard ou TDNN, rapprochant les réseaux reçurent et les réseaux alimenté vers l'avant.
    L'approche HMM/RNA, combine les avantages des deux approches en employant un RNA (principalement un PMC) pour estimer les probabilités dépendantes d'observation d'état d'un HMM, au lieu des mélanges Gaussiens, alors que les aspects temporelles de la parole sont traité par les modèles de gauche a droite du HMM.
    De plus, les raisons poussent à utiliser une hybridation HMM/RNA, dans ce qui suit quelques unes peuvent être citer:
    • Les RNA peuvent fournir l'étude discriminante, c.a.d, des modèles formé à réduire le taux d'erreur tous en maximisant la distance entre le modèle jugé correcte et ses rivaux
    • Les RNA peuvent modéliser n'importe quelles fonctions nonlinéaires en entrée (théorème de Cybenco)
    • Les RNA peuvent incorporer tous types de contraintes pour la classification
    D'autres hybridation RNA et réseaux Bayesien, SVM (Support Vector Machine), etc. peuvent être étudié.
    A noter que la plupart du bagages théorique présenté sera appliquer principalement a la langue Arabe qui souffre cruellement de ce type de systèmes d'information, pour la reconnaissance, la modélisation et la fouille de données.

Références:

[1] Saeed, K. and Nammous M.K., 2005. A New Step in Arabic Speech Identi£cation: Spoken Digit Recognition. Springer-Verlag, under publication, New York
[2] Saeed, K. and Nammous M.K., 2005. Heuristic Method of Arabic Speech Recognition.
[3] Gemello, F. Mana D. Albesano Loquendo, Hybrid HMM/Neural Network based Speech Recognition in Loquendo ASR, 2006.

        
 

© 2011- Laboratoire sur la Gestion Electronique de Documents
Tous droits réservés - All rights reserved -