Laboratoire sur la Gestion Electronique de Documents -LabGED- Welcome

Google

Yahoo

CARI-info

MESRS

Université Badji Mokhtar-Annaba

Equipe1

Menu principal

Infinite Menus, Copyright 2006, OpenCube Inc. All Rights Reserved.

Nous contacter
Tel: 0021338872678
Fax: 0021338872436

---------------------------------
LabGED
Université Badji Mokhtar
BP 12 - 23000 -  Annaba
Algérie

Directeur: Dr. Farah Nadir

farah@labged.net

 

      

        


Reconnaissance et indexation du documents écrit



Responsable de l'équipe: N. Farah, MC

Thème de recherche: Reconnaissance et indexation du documents écrit: Approche multi classifieurs et multi modèles

Nom Prenom Diplôme Grade Spécialité Structure de rattachement
Farah Nadir Doctorat d’état

Maître de conférences A

IA & Gestion données Université de Badji Mokhtar-Annaba
Djemam Youcef Magister Chargé de cours Réseaux, Technologies Web Université de Badji Mokhtar-Annaba
Azizi Nabiha Doctorat Maître de Conférence B IA & Gestion données Université de Badji Mokhtar-Annaba
Boukerma Hanene Magister Maître Assistant B IA & Gestion données Université Skikda
Boughareb Djalila Master II Doctorante IA & Gestion données Université de Badji Mokhtar-Annaba

 

IA: Intelligence Artificielle

Dans le domaine de la reconnaissance de formes un champ d’investigation et de recherche a été défini depuis deux décennies, qui est la reconnaissance de l’écriture manuscrite. Ecrire des mots d’une manière manuscrite est un acte purement humain, fait par des millions de personnes par jour. L’opération de reconnaissance de l'écriture est la transcription de données manuscrites dans un format numérique. Le but de cette opération est de traiter ces données électroniquement en approchant le mieux possible le système des êtres humains. L’avantage de faire ces opérations avec des ordinateurs c’est de pouvoir traiter ou transcrire un grand nombre de données à grande vitesse et de la manière la plus fiable possible. A partir de cette définition nous dégageons deux voies principales de recherches :

  • .  La reconnaissance de documents manuscrits
  • .  L’indexation et l’archivage de documents anciens.
La reconnaissance de documents manuscrits se propose de trouver des méthodes pour capter,traiter puis reconnaître des documents manuscrits. Cette reconnaissance passe d’abord par une première étape qui consiste à construire une base données sur les caractères, les mots et les phrases en langue arabe. Le but de l’équipe est d’abord de construire cette base pour ensuite lancer un certains nombres de traitements dessus pour pouvoir la stocker ensuite l’utiliser afin de faire une reconnaissance.
-----------------------------------------------------------------------------------------
L’étape de reconnaissance nécessite de faire une étude sur les moyens de classification existant et de voir dans quelle mesure ils pourront être utilisés pour la langue arabe. Dans cette optique, plusieurs méthodes sont possibles, une méthode consiste à chercher le meilleur classifieur possible, le meilleur dans le sens taux de bonne reconnaissance, ensuite de chercher à explorer la combinaison de classifieurs et dans quelles mesures cette combinaison va contribuer à améliorer la reconnaissance de l’arabe manuscrit. Tous les processus cités peuvent faire l’objet de travaux séparément les uns des autres par la même équipe pour contribuer à un but final qui est la reconnaissance. Il est en fin possible d’envisager pour des documents bien précis notamment la lecture de chèques bancaires de faire coopérer un système expert pour vérifier la validité des réponses obtenues par le système de reconnaissance. D’autres applications sont envisageable notamment le tri postal, le traitement automatique de formulaires manuscrits ou imprimés etc.
-------------------------------------------------------------------------------------------
L'objectif de l’étude du document ancien est de développer des outils permettant l'accès, aussi bien à travers Internet ou à partir de support magnétique de sauvegarde, à des collections de documents anciens gardés dans différentes bibliothèques, par la numérisation de ces ouvrages.
---------------------------------------------------------------------------------------------
Pour des raisons de conservation, les collections d'ouvrages ne peuvent actuellement être consultées que par une faible minorité d'experts ou d'érudits. Coûteux en moyens de conservation et peu utilisé, le fonds ancien peut donc parfois apparaître comme un poids mort dans une bibliothèque. L'accès numérisé, en ouvrant ces collections à un public plus nombreux, permet une valorisation sans nuisance de ces fonds. Non seulement on offrirait à la minorité d'érudits des moyens de travail intéressants, mais encore les collections deviendraient accessibles à un plus large public.
---------------------------------------------------------------------------------------------
Les caractéristiques des documents anciens portent avant tout sur une hétérogénéité forte des ouvrages traités. Une harmonisation des présentations et des règles éditoriales a pris plusieurs siècles, ce qui du coup se traduit par une variété de livres où des différences de mise en page, de typographie, de style d’illustrations sont fortement présentes.
--------------------------------------------------------------------------------------------
A cette spécificité vient s’ajouter des caractéristiques de dégradation (pages jaunies, tâches d’encre, aspect visible de l’encre du verso…) et de défauts de numérisations (défauts de courbure, de lumière…) qui rendent complexe tout traitement de caractérisation ou de segmentation de ces images
-------------------------------------------------------------------------------------------
Le premier objectif à tracer est la collecte de documents anciens afin de préparer une base de données qui servira pour les traitements futurs. Ensuite d’entamer les travaux sur cette base qui vont permettre de faire une indexation et une numérisation de ces documents.

        
 

© 2011- Laboratoire sur la Gestion Electronique de Documents
Tous droits réservés - All rights reserved -