L’analyse de séries chronologiques est un vaste domaine de statistiques et du machine learning possédant de nombreuses applications. Dans cet article, nous expliquons le concept de séries chronologiques et ses applications à des cas d’usage pour le business.
Après avoir lu cet article,
L’objet d’intérêt des statistiques est la variable aléatoire. Une variable aléatoire est une valeur numérique incertaine. Par exemple, le lancer de dé est une variable aléatoire. Si le dé affiche la valeur 3 après lancer, la réalisation de la variable aléatoire est de 3. Lorsque nous lançons un dé plusieurs fois, nous obtenons une suite de réalisations qu’on appelle, dans le jargon, des statistiques, un échantillon.
Remarquons à ce stade que l’ordre des réalisations n’est pas important. Ainsi, les échantillons (3, 5, 1, 2, 1) et (1, 3, 5, 1, 2) possèdent tous les deux les mêmes propriétés. Par exemple le même nombre d’occurrence du chiffre 1, c’est-à-dire 2. Remarquons aussi que chaque lancer de dé est indépendant. En d’autres termes, la probabilité que le deuxième lancer affiche un certain chiffre est de 1/6, indépendamment de la valeur du premier lancer.
Nous sommes maintenant à même de définir la notion de série chronologique. Une série chronologique est une suite de variables aléatoires mesurées à des temps différents et qui sont dépendantes entre elles. Prenons par exemple la température moyenne mensuelle mesurée sur l’année 2019.
L’aspect temporel est l’essence même de la série chronologique. Les observations sont ordonnées chronologiquement. Changer l’ordre des observations n’a pas de sens dans ce contexte. Remarquons également que les variables sont dépendantes. Il est peu probable que la température de février soit fort différente de celle de janvier.
Il existe pléthore de méthodes pour prédire les valeurs futures de séries chronologiques.
Prenons l’exemple de votre vendeur de glaces préféré qui a décidé de prédire les ventes qu’il réalisera la semaine prochaine. Une prédiction très basique sera les chiffres des ventes de la semaine dernière. Il est néanmoins possible d’avoir une prédiction plus précise.
La tendance inhérente à l’échantillon, les saisonnalités éventuelles et les autres caractéristiques des données historiques seront autant d’informations qui amélioreront la précision des prédictions de notre modèle statistique.
Il sera également possible d’inclure des données externes dans notre modèle. Ainsi, notre marchand de glaces pourra, par exemple, utiliser les prévisions de température pour estimer ses ventes futures. Grâce à la prédiction précise obtenue, notre vendeur de glaces pourra ajuster sa production.
Considérons une ligne de production où sont installés une dizaine de capteurs qui mesurent la température et la pression à une grande fréquence. Ces capteurs envoient la plupart du temps des données cohérentes entre elles. Celles-ci constituent un ensemble d’une dizaine de séries chronologiques.
Si la ligne de production est dans un état critique ou sur le point de l’être, certains capteurs enverront des données inhabituelles ou non-cohérentes par rapport aux données envoyées par les autres capteurs. Un humain pourra difficilement identifier cet état inhabituel de part le nombre important de capteurs et de la complexité de juger de la cohérence des données reçues.
Grâce à l’analyse de séries chronologiques, il est possible de déterminer si les données reçues sont habituelles et cohérentes entre elles. S’il s’avère que certains données reçues annoncent une avarie de la ligne de prédiction, il sera possible de l’arrêter et de rétablir le régime normal. Ceci empêchera qu’un état inhabituel endommage les machines.
Supposons maintenant que divers capteurs soient posés sur une machine de production. Dû à la fatigue de la machine, les valeurs renvoyées par les capteurs vont progressivement dévier de leurs valeurs normales. A partir d’un niveau critique, la machine risque d’être fortement endommagée si elle continue à fonctionner.
Grâce à l’analyse de séries chronologiques, il est possible de déterminer quand arrêter les machines ainsi que d’identifier les pièces défectueuses. Ceci maximisera le temps d’utilisation des machines et minimisera les risques de sécurité encourus par les opérateurs de la machine.
L’analyse de séries chronologiques est un domaine dont l’utilisation est en pleine croissance. La disponibilité de données massives, la puissance de calcul du cloud et l’essor du machine learning rendent possible un éventail d’applications industriels. L’heure est maintenant à l’action.