Soutenance de thèse de Max Raphael Sobroza Marques

Mercredi 31.03.2021
Horaires :
De 09:30 à 11:30

Adresse :

En Visio-conférence (dispositions exceptionnelles durant la crise sanitaire liée au Covid19)

Max Raphael Sobroza Marques doctorant au département MEE, et appartenant au laboratoire Lab-STIC, présentera ses travaux de thèse intitulés :

"Réseaux connexionnistes pour le traitement du langage naturel "

Avis de soutenance

En savoir +

Ci-dessous, un résumé de la thèse :

Dans ce travail de thèse, une approche transversale combinant les principes du codage distribué et ceux d'algorithmes neuro-inspirés a été adoptée pour des applications dans le domaine du Traitement Automatique du Langage Naturel (TALN). Des modèles récents de mémoire associative à long terme ont émergé dans le domaine de l'informatique neuro-inspirée. Ces modèles ont des propriétés intéressantes de correction d'erreurs, de robustesse, de capacité de stockage et de remémoration. Dans ce contexte, nous avons revisité le connexionnisme et les approches des réseaux de neurones en introduisant des modèles originaux de mémoires associatives et des principes multimodaux pour traiter des problèmes spécifiques du TALN. Nous introduisons également une méthode capable de construire des codes binaires et parcimonieux de mots à partir de vecteurs de plongements (embeddings). Ces codes sont plus robustes dans l'interprétation du texte pour plusieurs tâches sémantiques (désambiguïsation, synonymie/antinomie,…) tout en offrant des taux de compression élevés. Une dernière étape du travail a consisté à concevoir un nouveau système de recommandation d'articles appliqué aux textes juridiques en utilisant notamment la méthode des plongements de mots compressés que nous avons élaborée.        

Dans ce travail de thèse, une approche transversale combinant les principes du codage distribué et ceux d'algorithmes neuro-inspirés a été adoptée pour des applications dans le domaine du Traitement Automatique du Langage Naturel (TALN). Des modèles récents de mémoire associative à long terme ont émergé dans le domaine de l'informatique neuro-inspirée. Ces modèles ont des propriétés intéressantes de correction d'erreurs, de robustesse, de capacité de stockage et de remémoration. Dans ce contexte, nous avons revisité le connexionnisme et les approches des réseaux de neurones en introduisant des modèles originaux de mémoires associatives et des principes multimodaux pour traiter des problèmes spécifiques du TALN. Nous introduisons également une méthode capable de construire des codes binaires et parcimonieux de mots à partir de vecteurs de plongements (embeddings). Ces codes sont plus robustes dans l'interprétation du texte pour plusieurs tâches sémantiques (désambiguïsation, synonymie/antinomie,…) tout en offrant des taux de compression élevés. Une dernière étape du travail a consisté à concevoir un nouveau système de recommandation d'articles appliqué aux textes juridiques en utilisant notamment la méthode des plongements de mots compressés que nous avons élaborée.        

 
                                            
Mots-clés : Apprentissage machine ; Réseaux de neurones ; Langage naturel

Publié le 29.03.2021
 
1
 
2
 
3
 
4
 
5
 
6
 
7
 
8
 
9
 
10
 
11
 
12
 
13
 
14
 
15
 
16
 
17
 
18
 
19
 
20
 
21
 
22
 
23
 
24
 
25
 
26
 
27
 
28
 
29
 
30