OPTIPROFIL

Optimisation et adaptation d’un outil d’étude de marché à des flux massifs et hétérogènes de données médias

par Felix Sommer

Résumé

Dans le cadre du programme WALInnov 2017, le projet de recherche OPTIPROFIL a été sélectionné par la région wallonne. Ce projet est le fruit d’une collaboration entre le Social Media Lab de l’UCL et l’Université de Liège.

La première partie du projet vise à étudier la manière avec laquelle les données provenant de sources hétérogènes, telles que différents médias sociaux, peuvent être combinées pour fournir des informations plus approfondies sur le comportement des utilisateurs.

En particulier, la recherche se concentre sur les défis techniques et les particularités associées à différentes sources de données hétérogènes, telles que différentes structures et catégorisations de données ainsi que leur contenu. Réunir ces différentes données et catégories dans le but d’obtenir un schéma de catégorie généralisable permet l’exploitation combinée de celles-ci.

Notre recherche suit un schéma ontologique et une

approche algorithmique d’appariement (matching algorithm approach). Dans un premier temps, le développement d’un schéma ontologique généralisable est proposé afin de décrire toutes les sources de données existantes et futures qui peuvent être décrites à partir des instances de ce schéma de catégorie. Après le développement et la mise en œuvre du schéma, l’accent est mis sur le développement d’un algorithme de « matching » (appariement), qui permet de faire correspondre automatiquement les sources de données existantes (et futures) avec le schéma ontologique établi.

La deuxième partie du projet concerne l’analyse statistique des données. Celles-ci résultent de la combinaison des différentes sources de données déduite grâce au schéma de la première partie du projet. En particulier, nous nous concentrons sur le développement d’une solution statistique permettant la caractérisation d’une population par rapport à une autre. Cette solution statistique doit permettre, pour une liste de critères donnés, de

calculer des proportions d’individus dans les deux populations (dont l’une est la population cible). Chaque critère correspond à une caractéristique à partir laquelle nous estimons la proportion d’individus dans les deux populations. Ensuite, l’algorithme extrait les profils des individus sur la base des critères les plus pertinents. Ces critères sont combinés afin de mieux différencier les deux populations. Une liste de ces profils est alors délivrée grâce à une mesure de discrimination. Plus la mesure du pouvoir discriminant est élevée pour un profil, plus celle-ci peut être considérée comme un ensemble de règles de décision aidant à distinguer les individus des deux populations. Cette liste de critères combinée avec les proportions estimées d’individus pour chaque profil dans la population cible permet à l’utilisateur de se concentrer sur les groupes d’intérêt qu’il souhaite cibler.

Partenaires du projet