Télécharger La thèse : | ![]() |
Titre: Elaboration de modèle de de thèmes logiciels automatiquement étiqueté : Approche Al-STM
Domaine: Mathématiques informatique (MI)
Filière: Informatique
Option: MODELE DE DONNEES AVANCES ET RESEAUX EMERGENTS
Auteur: BOUZIANE Youcef
Soutenu (e) le: 13/01/2021
Sous la direction de: ABDI Mustapha Kamel, Professeur, Université Oran 1
Co-directeur:SADOU Salah, Professeur, Université Bretagne Sud
Le président du jury : BELALEM Ghalem, Professeur, Université Oran 1
Examinateur1: SEKHRI Larbi, Professeur, Université Oran 1
Examinateur2: KOUNINEF Belkacem, Professeur, INTTIC - Oran
Examinateur3: BENMOHAMED Mohamed, Professeur, Université de Constantine 2 AM
Mention: Très honorables
Résumé:Les entrepôts publics de logiciels contiennent une quantité importante de données précieuses qui sont en constante croissance et qui offrent des opportunités pour soutenir le génie logiciel (GL). Les chercheurs ont appliqué des techniques de recherche d'information (IR) pour fouiller les entrepôts de logiciels (MSR). Le modèle de thème, avec sa capacité d'extraction non supervisée des structures sémantiques latentes, est l'une des techniques d' IR permettant de donner un sens aux données non structurées dans les entrepôts de logiciels en les regroupant par thème et par domaine. Cependant, cette technique ne donne aucune interprétation ni étiquette aux thèmes extraits et nécessite une analyse manuelle de leur distribution de mots pour les identifier. Certaines approches ont été proposées pour étiqueter automatiquement les thèmes à l'aide de tags issus des entrepôts de logiciels. Mais ils ne prennent pas en compte l'existence de tags spams et ils ont des difficultés à évoluer et s'adapter avec les grands espaces de tags. Dans cette thèse, nous présentons une nouvelle approche appelée modèle de thèmes logiciels automatiquement étiqueté (Al-stm). Al-stm étiquette les thèmes sur la base de tags observés sur les entrepôts de logiciel. Il atténue le problème de l'étiquetage manuel et automatique des modèles de thèmes dans le domaine du GL. Al-stm a été implémenté et entraîné sur 22K projets GitHub et évalué dans deux tâches GL. Les résultats empiriques suggèrent que Al-stm est plus robuste en termes des métriques F-mesure et nDCG (pour Normalised Discounted Cumulative Gain) et s'adapte mieux aux grands espaces d'étiquettes par rapport aux techniques actuellement utilisées
Mots clefs: Modèle de thèmes logiciels; La fouille des entrepôts de logiciels; Génie logiciel; ?tiquettes logicielles; Logiciels open source; Normalised Discounted Cumulative Gain; Al-stm; NER; MSR.
Publications associées à la thèse
Article 1 TH5186:
Titre: Automatically Labelled Software Topic Model
Revue: International Journal of Open Source Software and Processes
Référence: Volume 11 • Issue 1 • January-March 2020
Date: Janvier 2020