Thèses et habilitations (Production scientifique) - Laboratoire de Recherche en Informatique

Doctorat de

Doctorat
Equipe : Données et Connaissances Massives et Hétérogènes

Automatic key discovery for Data Linking

Début le 05/10/2011
Direction : PERNELLE-MANSCOUR, Nathalie
[SAIS Fatiha]

Ecole doctorale : ED STIC 580
Etablissement d'inscription : Université Paris-Saclay

Lieu de déroulement : LRI-IASI

Soutenue le 09/10/2014 devant le jury composé de :

Directrice de thèse :
- Mme Nathalie Pernelle, Maître de Conférences, LRI, Université Paris Sud

Co-encadrante :
- Mme Fatiha Saïs, Maître de Conférences, LRI, Université Paris Sud

Rapporteurs :
- Mme Marie-Christine Rousset, Professeur, LIG, Université de Grenoble
- M. Aldo Gangemi , Professeur, LIPN, Université Paris 13

Examinateurs :
- M. Olivier Curé, Maître de Conférences, LIGM, Université Marne-la-Vallée
- M. Alain Denise, Professeur, LRI, Université Paris Sud

Activités de recherche :

Résumé :
Dans les dernières années, le Web de données a connu une croissance fulgurante arrivant à un grand nombre des triples RDF. Un des objectifs les plus importants des applications RDF est l’intégration de données décrites dans les différents jeux de données RDF et la création des liens sémantiques entre eux. Ces liens expriment des correspondances sémantiques entre les entités d’ontologies ou entre les données. Parmi les différents types de liens sémantiques qui peuvent être établis, les liens d’identité expriment le fait que différentes ressources réfèrent au même objet du monde réel. Le nombre de liens d’identité déclaré reste souvent faible si on le compare au volume des données disponibles. Plusieurs approches de liage de données déduisent des liens d’identité en utilisant des clés. Une clé représente un ensemble de propriétés qui identifie de façon unique chaque ressource décrite par les données. Néanmoins, dans la plupart des jeux de données publiés sur le Web, les clés ne sont pas disponibles et leur déclaration peut être difficile, même pour un expert.

L’objectif de cette thèse est d’étudier le problème de la découverte automatique de clés dans des sources de données RDF et de proposer de nouvelles approches efficaces pour résoudre ce problème. Les données publiées sur le Web sont général volumineuses, incomplètes, et peuvent contenir des informations erronées ou des doublons. Aussi, nous nous sommes focalisés sur la définition d’approches capables de découvrir des clés dans de tels jeux de données. Par conséquent, nous nous focalisons sur le développement d’approches de découverte de clés capables de gérer des jeux de données contenant des informations nombreuses, incomplètes ou erronées. Notre objectif est de découvrir autant de clés que possible, même celles qui sont valides uniquement dans des sous-ensembles de données.

Nous introduisons tout d’abord KD2R, une approche qui permet la découverte automatique de clés composites dans des jeux de données RDF pour lesquels l’hypothèse du nom Unique est respectée. Ces données peuvent être conformées à des ontologies différentes. Pour faire face a‘ l’incomplétude des données, KD2R propose deux heuristiques qui permettent de faire des hypothèses différentes sur les informations éventuellement absentes. Cependant, cette approche est difficilement applicable pour des sources de données de grande taille. Aussi, nous avons développé une seconde approche, SAKey, qui exploite différentes techniques de filtrage et d’élagage. De plus, SAKey permet à l’utilisateur de découvrir des clés dans des jeux de données qui contiennent des données erronées ou des doublons. Plus précisément, SAKey découvre des clés, appelées ”almost keys”, pou lesquelles un nombre d’exceptions est toléré.