Pour l'atelier TextMine nous avons eu le plaisir d'accepter 5 soumissions.
Chacune d'elle a fait l'objet de 2 ou 3 relectures grâce à nos gentils relecteurs.
Le programme de l'atelier est ci-dessous.
Les inscriptions à TM 2020 se font sur le site de la conférence EGC : https://egc2020.sciencesconf.org/
Heure | Durée | Temps Exposé + Questions | |
14:00 | Ouverture | ||
14:10 |
(Exposé invité) : "Mise en place d’une chaîne d’évaluation de compréhension du langage naturel : retour d’expérience sur l’assistant vocal Djingo d’Orange" Ghislain Putois. Créer un assistant vocal est un projet qui bouscule les cadres et pratiques traditionnelles de l’architecture logicielle, par l’importance que revêtent les interactions avec l’utilisateur dans la qualité de service perçue. Nous présentons ici un aperçu de la méthodologie que nous avons mise en œuvre dans l’assistant vocal Djingo d’Orange pour évaluer et améliorer la qualité de ces interactions, en mettant l’accent sur la partie compréhension du langage naturel par le système. | 45 | 35+10 |
15:00 |
"Génération de résumés abstractifs de commentaires sportifs" Kevin Sylla, Abdallah Essa, David Stéphane Belemkoabga, Christophe Rodrigues and Aurélien Bossard. Dans ce papier, nous proposons une méthode permettant de générer automatiquement à partir de commentaires réalisés en direct par des journalistes sportifs un résumé de match de football. Nous montrons que cette tâche difficile met en échec les approches extractives et proposons dans un premier temps un modèle d’apprentissage reposant sur des réseaux de neurones profonds afin de sélectionner les phrases les plus pertinentes. Dans un second temps, cette réduction du bruit sur les commentaires nous permet d’apprendre à générer des résumés abstractifs à l’aide d’un réseau de neurones de type pointer-generator et nous montrons l’intérêt de la sélection des phrases pertinentes ainsi que la qualité des résumés créés automatiquement. Nous présentons des premiers résultats encourageants. [les transparents de la présentation ici ...] | 30 | 20+10 |
15:30 |
"Pause café (horaire à confirmer selon organisation locale)", nous invitons les auteurs à préparer un poster ou une démo pour poursuivre (ou initier) la discussion autour d'un café...
L'heure de la pause sera définie par la conférence. Elle peut légèrement variée avant ou après l'article ci-dessous dans le programme. | 30 | - |
16:00 |
"Extraction du contenu principal de pages web" Stanislas Morbieu, Guillaume Bruneval, Mohamed Lacarne, Mohamed Kone and François-Xavier Bois L’extraction du contenu principal d’une page web constitue un enjeu majeur de la fouille de textes permettant de fournir du contenu moins bruité en entrée de méthodes d’analyses ou de prédiction. Nous présentons une méthode d’apprentissage non supervisée permettant d’extraire le contenu textuel principal d’une page web. Celle-ci est constituée de trois étapes : une phase de classification non supervisée de blocs de textes au sein d’une même page, une phase de sélection des clusters associés au contenu principal, puis une phase d’apprentissage "supervisé" entraîné sur les données labellisées par les deux étapes précédentes. Des expériences sont menées pour valider la généralisation du classifieur et la qualité des résultats obtenus. [les transparents de la présentation ici ...] | 30 | 20+10 |
16:30 |
"Classification de phrases courtes : des approches non-supervisées aux approches faiblement supervisées" Kaoutar Ghazi, Sébastien Marchal, Andon Tchechmedjiev, Pierre-Antoine Jean, Nicolas Sutton-Charani and Sébastien Harispe Cette note présente une étude, menée dans un contexte industriel, de différentes approches de classification non supervisée ou faiblement supervisée de courtes requêtes exprimées en langage naturel. Nous présentons et comparons différentes approches basées à la fois sur des techniques de Recherche d’Information et sur des techniques à base d’apprentissage machine exploitant différents types de plongements sémantiques (embeddings). Nous discutons les résultats obtenus avant d’élargir par une présentation d’approches alternatives à base d’apprentissage automatique supervisé ne nécessitant que peu de données labelisées – des approches de type few shot learning. Cette note vise ainsi à faire synthèse des approches dites état de l’art qui peuvent être utilisées pour traiter cette problématique de classification fréquemment rencontrée dans l’Industrie (e.g., chatbot). [les transparents de la présentation ici ...] | 30 | 20+10 |
17:00 |
"Extraction automatique de noms d’entreprises à partir de titres de presse : un exemple d’application chez ReportLinker" Marilyne Latour, Jocelyn Bernard and Corentin Regal Cet article présente un retour d’expérience sur le processus de reconnaissance d’Entités Nommées (REN) dans un contexte industriel. L’expérience consiste à traiter des données non structurées à partir de dépêches d’actualité. Notre objectif est d’extraire automatiquement les noms d’entreprises contenues dans des titres d’articles de presse économique. L’article décrit les expérimentations effectuées et tire les premières conclusions de cette méthode. [les transparents de la présentation ici ...] | 30 | 20+10 |
17:30 |
"ARES : un extracteur d'exigences pour la modélisation de systèmes" Aurélien Lamercerie L’application de méthodes formelles pour assister la conception de systèmes s’appuie sur une modélisation des comportements attendus. La construction de ces représentations nécessite d’extraire les règles comportementales (exigences) généralement définies dans un document de spécifications. Le logiciel ARES (Abstract Requirement Extraction for Systems) répond à ce besoin en partant d’énoncé en langage naturel. Cet outil exploite une représentation sémantique intermédiaire (AMR), et permet de construire un ensemble de définitions abstraites directement exploitables pour modéliser le comportement de systèmes. [les transparents de la présentation ici ...] | 30 | 20+10 |
18:00 | Mots de cloture et fin - RDV à Montpellier pour EGC 2021 ! |