Avis de soutenance – Amel Souifi

Exploitation des données massives pour le pilotage multi-objectif par performance de l’industrie 4.0

Mardi 12 juillet 2022, M^me Amel Souifi soutiendra publiquement à ISAE-Supméca ses travaux de thèse intitulés Exploitation des données massives pour le pilotage multi-objectif par performance de l’industrie 4.0 et dirigés par MM. Marc ZOLGHADRI et Maher BARKALLAH (co-tutelle avec l’École nationale d’ingénieurs de Sfax de l’université de Sfax – Tunisie)

Mots-clés

# Pilotage de performance

# Industrie 4.0

# Big Data

# Incertitude.

Résumé

L’objectif de cette thèse est de proposer des méthodes d’extraction de données pertinentes (intelligentes) à partir des Big Data pour le pilotage de performance à l’ère de l’industrie 4.0. Nous avons défini des critères de pertinence de données à savoir, l’alignement aux objectifs de l’entreprise, le coût, la qualité et la quantité de données. La détermination de quantité suffisante de données concerne le choix de paramètres (variables) à superviser et la définition de la fréquence de collecte de données. Afin déterminer le nombre suffisant de variables, nous avons utilisé des méthodes de réduction de dimensionnalité essentiellement l’analyse en composantes principales et le clustering des variables. La définition de la fréquence de collecte est formulée comme un problème de segmentation de séries temporelles multivariées. Pour tenir compte de la qualité de données, nous nous sommes intéressés à la modélisation de l’incertitude et l’imprécision de données par la théorie de croyance. Le processus de traitement des incertitudes liées aux indicateurs de performance peut être résumé ainsi comme suit : la modélisation des incertitudes pour les données élémentaires, la fusion de données venant de plusieurs sources, la propagation d’incertitude vers les indicateurs et la prise de décision. Nous avons proposé une méthode de calcul de la valeur de confiance inspirée basée sur la méthode des K plus proches voisins. Puis, nous avons défini des zones de prise de décision basées sur les indicateurs incertains. Un autre aspect de non qualité de données a été étudié, à savoir l’incomplétude. Une étude de l’évolution de certains indicateurs de performance en fonction des pourcentages et mécanismes de génération de données manquantes a montré que l’incomplétude a un effet plus important sur la mesure de performance lorsque la quantité de données est faible.

Key words

# Performance Management

# Industry 4.0

# Big Data

# Uncertainty

Abstract

The objective of this thesis is to propose methods for extracting relevant (intelligent) data from Big Data for performance management in the Industry 4.0 era. We have defined data relevance criteria, namely, alignment with business objectives, cost, quality and sufficient quantity. The determination of sufficient data quantity concerns the choice of parameters (variables) to be monitored and the definition of the frequency of data collection. In order to determine the sufficient number of variables, we used dimensionality reduction methods, mainly principal component analysis and clustering of variables. The definition of the collection frequency is formulated as a multivariate time series segmentation problem. To take into account the quality of data, we are interested in modeling uncertainty and imprecision of data by the theory of belief functions. The process of dealing with uncertainties related to performance indicators is summarized as follows: modeling of uncertainties for elementary data, fusion of data from several sources, propagation of uncertainty to indicators and decision making. We proposed a method for calculating the confidence value inspired by the K-nearest neighbor method. Then, we defined decision-making zones based on the uncertain indicators. Another aspect of data non quality has been studied, namely incompleteness. A study of the evolution of some performance indicators as a function of the percentages and mechanisms of missing data generation showed that incompleteness has a greater effect on the performance measure when the amount of data is low.