Thème de recherche: Environnement Informatique d’Apprentissage Humain (EIAH), Fouille de données,
Gestion du document numérique
Nom
Prenom
Diplôme
Grade
Spécialité
Structure de rattachement
Seridi
Hassina
Doctorat d’état
Maître de conférences
EIAH, IA & Gestion données Web
Université de Badji Mokhtar-Annaba
Belleili
Habiba
Doctorat d’état
Maître de conférences
IA, IA distribuée & SMA
Université de Badji Mokhtar-Annaba
Sari
Toufik
Doctorat
Chargé de Cours
Reconnaissance, fouille de données
Université de Badji Mokhtar-Annaba
IA: Intelligence Artificielle Problématique scientifique et positionnement
Les problèmes de recherche traités par cette équipe demandent souvent de combiner des techniques
d'extraction de connaissances, de fouille de données et les techniques de gestion du document appliquées
au domaine des Environnements Informatique d’Apprentissage Humain (EIAH). Des compétences complémentaires
pour concevoir et modéliser des systèmes distribués à large échelle seront développées. L’équipe regroupe
des spécialistes de ces domaines. Pendant la période 2003-2006, nous avons plus spécifiquement étudié les
problèmes suivants :
Ingénierie du document multimédia appliquée aux documents pédagogiques
Construction de modèles pour des communautés d’apprentissage
Composition de ressources : documents pédagogiques
Gestion de contenu pour le Web sémantique : annotations de documents et Ontologies
Nous continuerons à mener des recherches dans les problématiques précédemment citées et nous aborderons
les thématiques suivantes :
Fouille de données appliquée au document multimédia : catégorisation de textes et système de
Questions/Réponse.
Les systèmes de collaboration ubiquitaire (CSCL) : Services Web, Services Grid et communautés
virtuelles
Identification et gestion de l’émotion des apprenants
La simulation et la formation
Environnements interactifs et mobiles pour l’apprentissage
Dans la description des différentes thématiques abordées par les membres de l’équipe nous avons
proposé la catégorisation suivante :
Les Environnements Informatique d’Apprentissage Humain (EIAH)
Construction de modèles pour des communautés d’apprentissage
L’évolution actuelle des systèmes de formation à distance va vers plus de personnalisation et
de réutilisation dans un environnement informatique marqué par les technologies du web. La notion
de composition des objets pédagogiques (documents, composants,…) a été abordé dans nos travaux.
En effet, nous avons focalisé nos travaux de recherches sur les systèmes éducatifs adaptatifs et
sémantiques vues comme des systèmes dynamiques et adaptatifs fondés sur des mécanismes de composition
et des modèles sémantiques.
Aujourd’hui des normes et standards émergent et s’imposent dans le domaine du e-learning. En effet,
les cours, les produits et différents services qui empruntent les voies électroniques d’Internet
circulent à travers de multiples systèmes ou plates-formes logicielles et épousent des formats ou
des structures variées. Aussi, vu le nombre et la diversité du matériel numérisé et afin de permettre
aux utilisateurs un repérage, une distribution, un échange et des mises à jour de ce matériel,
les concepteurs des objets pédagogiques adoptent des normes et des standards qui se présentent
comme des langages communs pour décrire des ressources pédagogiques numérisés. Ces langages sont
interprétables par les machines et les humains et offrent une interopérabilité des systèmes éducatifs.
Nous ne manquons pas de citer :
L’organisme de normalisation l’IEEE LTSC (IEEE, 2001) qui définit le LOM
SCORM (Sharable Content Object Reference Model) est un modèel réalisé à partir d’une initiative
de l’ADL (Advanced Distributed Learning) (ADL, 2001).
IMS Learning Design (IMS LD) est un langage qui favorise la description des processus
d’apprentissage. Il aide les concepteurs pédagogiques à modéliser le contenu, les rôles des différents
acteurs dans une activité pédagogique et les services nécessaires pour atteindre les objectifs
d’apprentissage. Il soutient également les divers types d’apprentissage collaboratif. Cet aspect
est particulièrement important pour sa reconnaissance à la fois dans le cadre de la formation à
caractère commercial et globalement dans l’éducation.
L’idée dans ce thème est donc de chercher à mieux analyser la notion de scénarisation en se basant sur
un langage de spécification IMS LD pour être capable de formaliser ensuite des scénarios pédagogiques
beaucoup plus réutilisables et flexibles. L’innovation et la contribution principales de ce projet
résident dans l’étude même de la notion de scénarisation en se basant sur une approche basée modèle
appliquée aux situations d’apprentissage collaboratives. Nous ne manqueront pas d’étudier le standard
IMS LD qui est appelé aujourd’hui à créer des cours pour le e-learning qui soient interopérables,
flexibles, effectives, attractive et personnalisés
La spécification IMS-Learning Design (ingénierie pédagogique) fait appel à des concepts pédagogiques
permettant de modéliser les unités d’apprentissage. La flexibilité de IMS-LD réside dans le fait qu’elle
prend en compte une grande variété de modèles pédagogiques. Un plan de cours extrait d’une base de données générale ou spécifique peut être modélisé avec IMS-LD, grâce à la description des différents rôles, activités, environnements, méthodes, propriétés, conditions et notifications. Il est utilisé pour transformer les plans de cours en unités d’apprentissage (UOL) décrites de manière formelle et pouvant être exécutées avec un éditeur IMS-LD basé sur un moteur. Ces unités exécutables peuvent être conçues dès le début en utilisant un éditeur tel que CopperAuthor ou Reload. Elles peuvent être modifiées à partir d’exemples existants stockés dans un répertoire par LN4LD ou Dspace. L’Université ouverte de Hollande (OUNL Open University of the Netherland) est l’un des pionniers dans l’utilisation d’IMS LD pour fournir des moteurs et des outils d’édition. Nous expérimentons dans le cadre de projet POLLES, la norme SCORM et nous proposerons dans le cadre de la reconduction de ce projet, l’intégration de la norme IMS LD pour le projet SAKAI, il est à noter qu’un travail embryonnaire a été proposé déjà pour la plate forme MOODLE.
Les deux pistes à creuser dans ce thème peuvent se résumer :
La mise en ligne de ressources didactiques en essayant de se caler autant que possible sur
les normes et standards dominants aujourd’hui,
• Développer un “modèle” complet, prototype, pour un module d’enseignement intégrant diverses
ressources et scénarios pédagogiques.
Les systèmes ubiquitaire et l’apprentissage collaboratif (CSCL : Computer Shared
Collaborative Learning) : Services Web, Services Grid et communautés virtuelles
L’objectif de ces travaux est de concevoir et de réaliser des outils intelligents pour la création
et la gestion d'un groupe d’apprenants (répartition de responsabilités, identification du
collaborateur, organisation d’activités collectives,…). Il s’agit d’exprimer les règles et
pratiques de fonctionnement du groupe. Un environnement technique est à réaliser qui offrira
des fonctionnalités pour le suivie des activités du groupe et d’automatiser certains outils
intelligents. Nous travaillons actuellement sur l’enrichissement de la norme IMS LD avec des
modèles dédiés au CSCL
Le Développement de nouveaux services E-learning fondés sur un traitement informatique ubiquitaire
et mobile est un axe assez porteur aujourd’hui qui nous intéresse particulièrement. Ubiquitaire
peut être défini comme un dépôt numérique et global qui a la potentialité d’être accessible par
n’importe qui de n’importe quel endroit à n’importe quel heure. Utilisant les outils : ‘laptops,
palm pilot, digital cameras, rocket e-book, mobile phones, PDAs, Wifi and Bluetooth, P2P,…
Aussi nous préconisons le développement de la géo-localisation de la personne apte à solutionner
un problème pour la promotion de l’apprentissage collaborative. Une technique qui constituera un
changement dans la ‘culture de la formation et de l’apprentissage’.Les pistes à creuser dans ce
thème peuvent être résumé :
Accompagnement des projets de 3ème année LMD avec les techniques issues du CSCL.
Importance du collaboratif, de l’effet groupe
Développement des eLab, virtual lab, remote lab
Le travail collaboratif à distance et multiculturel basé sur les nouvelles générations
d’outils web simplifiés (Wikis,…)
Composition de ressources : services Web, documents
L’objectif est de modéliser et synchroniser les ressources pédagogiques disponibles sur le Web,
en vue de concevoir, d’évaluer et de réviser un cours. Ce travail permet la création assistée de
cours par l’enrichissement d'une ontologie de concepts pédagogiques et une ontologie des objets
d’instruction. Nous retenons comme hypothèse que l’enseignant peut modéliser son cours par une
ontologie. Dans ce cas nous organisons le contenu du cours par assemblage de ressources ou de
parties de ressources existantes. Après évaluation auprès des étudiants, nous mettons en place
des informations qui vont permettre à l’enseignant de réviser son cours. Nous avons ainsi proposé
une méthodologie de conception de cours à partir de ressources existantes sur le Web basée sur
l’analogie avec la construction d’un cours par un enseignant, à partir d’ouvrages ou de documents
existants. Cette méthodologie se compose de plusieurs étapes parmi lesquelles, une étape d’annotations
des ressources pédagogiques par rapport à deux ontologie supposée préexistante, une étape d’évaluation
des ressources et une étape de révision du cours.
Fouille de données et recherche d’information
La majorité des moteurs de recherches actuels tentent de répondre aux requêtes soumises par les
utilisateurs indépendamment de leur charge. En effet, un moteur de recherche dispose d’un ensemble
de méthodes qui lui permettent à la fois d’améliorer la requête et de sélectionner les documents
les plus adéquats en réponse à cette requête. Ce fonctionnement du moteur reste le même qu’il
réponde à une dizaine de requêtes ou à des centaines. Ce qui, bien entendu, ne maximise pas l’utilité
de la réponse construite. Afin de pallier à ce problème, il suffit d’augmenter la vitesse de
raisonnement du moteur ou de le doter de techniques flexibles et intelligentes capables d’adapter
la profondeur de la réponse à la charge du système.
L'idée que nous ciblons consiste à combiner les deux approches afin d'améliorer la vitesse du
raisonnement par l’utilisation d’un système multi-agents. Dans cette architecture, les agents
fonctionnent en parallèle, chacun prenant en charge la réalisation d'un module parmi l’ensemble
nécessaire pour répondre à la requête. D’autre part, les agents sont capables par une interaction
coopérative de former une coalition pour répondre de la meilleure façon possible (maximiser l’utilité
de la réponse). La coalition intègre plus ou moins d’agents selon la charge totale à laquelle le
système est soumis. Un agent est amené à interagir avec son environnement quand il a besoin de
négocier les ressources dont il peut disposer pour contribuer à la résolution du problème.
Fouille de textes : catégorisation de textes et système de Questions/Réponse .
La fouille de textes est un domaine en pleine expansion ces dernières années et a eu pour objectifs
initiaux, la traduction automatique de textes et le dialogue homme machine. La compréhension de
textes en profondeur et la nécessité d'avoir une bonne connaissance du monde extérieur étaient de
rigueur même si les humains ne sont pas souvent d'accord sur l'interprétation d'un texte.
Les objectifs actuels de la fouille de textes concernent les requêtes sur de grandes masses de textes
et la catégorisation automatique de textes.
La catégorisation de textes est une opération ayant pour objectifs d’organiser un ensemble
d’observations en groupes homogènes et contrastés. En effet, nous avons aujourd’hui les livres
électroniques, les documents, les pages Web, les emails, les blogs, les journaux en ligne, les chats,
les papiers de recherches,…. Ces derniers étant accessibles grâce aux bases de données et la recherche
d’information. Or, il a été estimé que 80 à 85% de toutes les informations stockées dans les bases de
données sont des textes en langage naturel difficilement accessibles et interprétés par les humains
(un chercheur aura besoin de centaine d’heures par semaine pour identifier ces centres d’intérêt dans
les milliers de papiers numérisés.
Il s’agit de distinguer entre les domaines de recherche d’information, d’extraction d’information et
de fouille de textes
Le ‘Text Mining’ est définie comme une analyse intelligente de textes, fouille de données textuelles
ou découverte de connaissances dans le texte (KDT), réfère généralement au processus d’extraction
d’informations et de connaissances à partir de textes non structurés. Le ‘Text Mining’ est un champ
interdisciplinaire en pleine expansion qui touche les domaines de ‘information retrieval’, ‘data mining’
, ‘machine learning’, ‘statistics and computational linguistics’.
Dans la littérature scientifique sur le domaine, nous pouvons identifié plusieurs techniques fondées
sur l’apprentissage. Les problèmes de constitution de corpus d’entraînement sont à solutionner. Aussi,
nous nous proposons d’étudier:
L’impact de la méthode de représentation des documents dans le processus de catégorisation.
A partir de différents jeux de documents représentés dans un espace vectoriel, nous évaluons les
méthodes de catégorisation.
Un algorithme de représentation vectorielle de textes qui réalise une réduction de l’espace de
représentation par une méthode d’extraction d’attributs.
Nous projetons d’évaluer les performances dans le cadre de la classification automatique supervisée
à partir d’un ensemble de documents textes issus d’un quotidien national.Nous préconisons une
application des techniques proposées aux documents pédagogiques et à la langue arabe.