TOOLinux

Toute l’actu Linux & Open Source

Quelles sont les étapes pour intégrer la Data Science au sein d’une organisation ?

mardi 16 décembre 2014

Voici les étapes clés pour intégrer la Data Science avec succès au sein de son organisation :

1. L’expérimentation est la première étape à toute initiative ‘Data Science’ dans l’entreprise et l’on peut s’y essayer sans risque, à condition de respecter une démarche structurée. La formulation du sujet d’analyse est le prérequis absolu. Seule une formulation claire permet de dégager des associations originales de sources de données qui répondent spécifiquement à la question à adresser. Faire l’inverse, c’est-à-dire partir d’une liste de sources et essayer de les faire parler sans savoir ce que l’on recherche, c’est prendre le risque de se perdre dans l’espace multidimensionnel que représente cet amas de données.

2. Ingérer et fédérer les données dans une structure polyglotte de stockage au plus près de leur format d’origine (ie. Data Lake).

3. Découvrir et qualifier les données ainsi rassemblées en termes de volume, variété (structure et contenu), véracité (qualité) et les structurées dans un modèle adapté à l’analyse (modèle relationnel table, relationnel colonne, graphe ou document).

4. Identifier et faire tourner les algorithmes du marché capables d’apporter tout ou parti de la réponse à la question posée. Malgré la démocratisation de l’accès à l’algorithmique avancée, la manipulation de ces algorithmes diffère radicalement des modèles déterministes habituels. Les modèles disponibles aujourd’hui sur le marché sont principalement des modèles statistiques qui produisent des résultats quelle que soit la pertinence des données analysées. Il est donc critique d’en maitriser à minima les limites et les hypothèses de fonctionnement car le risque d’un Garbage In Garbage Out est bien réel. D’autre part dans le cas d’algorithmes apprenants (ie. machine learning), il est nécessaire de passer par une phase d’apprentissage sur un sous-ensemble des données. En général, 20% du volume cible.

5. Restituer les résultats de l’analyse dans un format interprétable (i.e. Data Visualisation) pour prendre une décision quant à l’industrialisation de l’algorithme sous-jacent. A noter que la pertinence de ce dernier devra être régulièrement validée, ie. repasser par le ‘Data Lab’ qui pourra le recalibrer ou le déprécier au profit d’un algorithme plus performant.

Si le Big Data est à l’âge de l’adolescence, la Data Science est, elle, seulement naissante au sein de l’entreprise. Même si elle occupe de plus en plus l’espace médiatique, les entreprises vont vite se rendre compte, au-delà des premiers succès de meilleure valorisation de leurs données actuelles, de toute la difficulté à mettre au point en interne des algorithmes performants Elles devront s’appuyer sur des algorithmes packagés dont la plupart s’appuieront sur des « learning machines » qui finiront par surpasser les capacités des meilleurs Data Scientists. L’élève aura alors dépassé le maître et la science, la fiction.

- Jérôme Besson, associé chez Sentelis.