Thème de recherche: Reconnaissance et indexation du documents écrit: Approche multi classifieurs et multi modèles
Nom
Prenom
Diplôme
Grade
Spécialité
Structure de rattachement
Farah
Nadir
Doctorat d’état
Maître de conférences
IA & Gestion données
Université de Badji Mokhtar-Annaba
Djemam
Youcef
Magister
Chargé de cours
Réseaux, Technologies Web
Université de Badji Mokhtar-Annaba
Baaziz
Abdelhalim
Magister
Maître Assistant
Réseaux, Technologies Web
Université de Badji Mokhtar-Annaba
IA: Intelligence Artificielle
Dans le domaine de la reconnaissance de formes un champ d’investigation et de recherche a été défini
depuis deux décennies, qui est la reconnaissance de l’écriture manuscrite.
Ecrire des mots d’une manière manuscrite est un acte purement humain, fait par des millions de personnes par jour.
L’opération de reconnaissance de l'écriture est la transcription de données manuscrites dans un format numérique.
Le but de cette opération est de traiter ces données électroniquement en approchant le mieux possible le système
des êtres humains. L’avantage de faire ces opérations avec des ordinateurs c’est de pouvoir traiter ou transcrire
un grand nombre de données à grande vitesse et de la manière la plus fiable possible.
A partir de cette définition nous dégageons deux voies principales de recherches :
. La reconnaissance de documents manuscrits
. L’indexation et l’archivage de documents anciens.
La reconnaissance de documents manuscrits se propose de trouver des méthodes pour capter,traiter puis reconnaître
des documents manuscrits. Cette reconnaissance passe d’abord par une première étape
qui consiste à construire une base données sur les caractères, les mots et les
phrases en langue arabe. Le but de l’équipe est d’abord de construire cette base pour ensuite lancer
un certains nombres de traitements dessus pour pouvoir la stocker ensuite l’utiliser
afin de faire une reconnaissance.
-----------------------------------------------------------------------------------------
L’étape de reconnaissance nécessite de faire une étude sur les moyens de classification existant et de voir
dans quelle mesure ils pourront être utilisés pour la langue arabe. Dans cette optique, plusieurs méthodes
sont possibles, une méthode consiste à chercher le meilleur classifieur possible, le meilleur dans le sens
taux de bonne reconnaissance, ensuite de chercher à explorer la combinaison de classifieurs et dans quelles
mesures cette combinaison va contribuer à améliorer la reconnaissance de l’arabe manuscrit. Tous les processus
cités peuvent faire l’objet de travaux séparément les uns des autres par la même équipe pour contribuer à un
but final qui est la reconnaissance. Il est en fin possible d’envisager pour des documents bien précis notamment
la lecture de chèques bancaires de faire coopérer un système expert pour vérifier la validité des réponses
obtenues par le système de reconnaissance. D’autres applications sont envisageable notamment le tri postal,
le traitement automatique de formulaires manuscrits ou imprimés etc.
-------------------------------------------------------------------------------------------
L'objectif de l’étude du document ancien est de développer des outils permettant l'accès, aussi bien à travers
Internet ou à partir de support magnétique de sauvegarde, à des collections de documents anciens gardés dans
différentes bibliothèques, par la numérisation de ces ouvrages.
---------------------------------------------------------------------------------------------
Pour des raisons de conservation, les collections d'ouvrages ne peuvent actuellement être consultées que par
une faible minorité d'experts ou d'érudits. Coûteux en moyens de conservation et peu utilisé, le fonds ancien
peut donc parfois apparaître comme un poids mort dans une bibliothèque. L'accès numérisé, en ouvrant ces
collections à un public plus nombreux, permet une valorisation sans nuisance de ces fonds. Non seulement on
offrirait à la minorité d'érudits des moyens de travail intéressants, mais encore les collections deviendraient
accessibles à un plus large public.
---------------------------------------------------------------------------------------------
Les caractéristiques des documents anciens portent avant tout sur une hétérogénéité forte des ouvrages traités.
Une harmonisation des présentations et des règles éditoriales a pris plusieurs siècles, ce qui du coup se traduit
par une variété de livres où des différences de mise en page, de typographie, de style d’illustrations sont
fortement présentes.
--------------------------------------------------------------------------------------------
A cette spécificité vient s’ajouter des caractéristiques de dégradation (pages jaunies, tâches d’encre, aspect
visible de l’encre du verso…) et de défauts de numérisations (défauts de courbure, de lumière…) qui rendent
complexe tout traitement de caractérisation ou de segmentation de ces images
-------------------------------------------------------------------------------------------
Le premier objectif à tracer est la collecte de documents anciens afin de préparer une base de données qui
servira pour les traitements futurs. Ensuite d’entamer les travaux sur cette base qui vont permettre de faire
une indexation et une numérisation de ces documents.