Télécharger La thèse :

Titre: Elaboration de modèle de de thèmes logiciels automatiquement étiqueté : Approche Al-STM

Domaine: Mathématiques informatique (MI)

Filière: Informatique

Option: MODELE DE DONNEES AVANCES ET RESEAUX EMERGENTS

Auteur: BOUZIANE Youcef

Soutenu (e) le: 13/01/2021

Sous la direction de: ABDI Mustapha Kamel, Professeur, Université Oran 1

Co-directeur:SADOU Salah, Professeur, Université Bretagne Sud

Le président du jury : BELALEM Ghalem, Professeur, Université Oran 1

Examinateur1: SEKHRI Larbi, Professeur, Université Oran 1

Examinateur2: KOUNINEF Belkacem, Professeur, INTTIC - Oran

Examinateur3: BENMOHAMED Mohamed, Professeur, Université de Constantine 2 AM

Mention: Très honorables

Résumé:

Les entrepôts publics de logiciels contiennent une quantité importante de données précieuses qui sont en constante croissance et qui offrent des opportunités pour soutenir le génie logiciel (GL). Les chercheurs ont appliqué des techniques de recherche d'information (IR) pour fouiller les entrepôts de logiciels (MSR). Le modèle de thème, avec sa capacité d'extraction non supervisée des structures sémantiques latentes, est l'une des techniques d' IR permettant de donner un sens aux données non structurées dans les entrepôts de logiciels en les regroupant par thème et par domaine. Cependant, cette technique ne donne aucune interprétation ni étiquette aux thèmes extraits et nécessite une analyse manuelle de leur distribution de mots pour les identifier. Certaines approches ont été proposées pour étiqueter automatiquement les thèmes à l'aide de tags issus des entrepôts de logiciels. Mais ils ne prennent pas en compte l'existence de tags spams et ils ont des difficultés à évoluer et s'adapter avec les grands espaces de tags. Dans cette thèse, nous présentons une nouvelle approche appelée modèle de thèmes logiciels automatiquement étiqueté (Al-stm). Al-stm étiquette les thèmes sur la base de tags observés sur les entrepôts de logiciel. Il atténue le problème de l'étiquetage manuel et automatique des modèles de thèmes dans le domaine du GL. Al-stm a été implémenté et entraîné sur 22K projets GitHub et évalué dans deux tâches GL. Les résultats empiriques suggèrent que Al-stm est plus robuste en termes des métriques F-mesure et nDCG (pour Normalised Discounted Cumulative Gain) et s'adapte mieux aux grands espaces d'étiquettes par rapport aux techniques actuellement utilisées


Mots clefs: Modèle de thèmes logiciels; La fouille des entrepôts de logiciels; Génie logiciel; ?tiquettes logicielles; Logiciels open source; Normalised Discounted Cumulative Gain; Al-stm; NER; MSR.


Publications associées à la thèse

Article 1 TH5186:

Titre: Automatically Labelled Software Topic Model

Revue: International Journal of Open Source Software and Processes

Référence: Volume 11 • Issue 1 • January-March 2020

Date: Janvier 2020