Technologies

Six outils qui rendent le Machine Learning plus simple

Six outils qui rendent le Machine Learning plus simple
Beaucoup d'utilisateurs métier, même sans être développeurs, s'avèrent en réalité assez habiles avec les données

Les fournisseurs ont entrepris de démystifier le Machine Learning, à travers des outils qui automatisent la préparation des données et le choix des algorithmes. Ces derniers rendent l'IA accessible à des utilisateurs métiers motivés et à l'aise avec les données. CIO Etats-Unis fait un focus sur différents outils.

PublicitéLes termes « Machine Learning » (systèmes auto-apprenants) ont longtemps été entourés d'une certaine aura magique. Les gens normaux n'enseignent pas aux machines à apprendre. Ce domaine est réservé à des alchimistes extrêmement spécialisés, tels les data scientists, qui transmutent les données en or au sein de leurs laboratoires de recherche, fournissant très peu d'explications au-delà d'un laconique « c'est la science ».

Pourtant, même si le fait est encore peu connu, cela fait déjà quelques années que les outils de Machine Learning ont évolué, pour devenir aujourd'hui utilisables par pratiquement n'importe qui. Il suffit d'être doté d'un peu de courage pour appuyer sur un bouton et démarrer la machine, pour lancer celle-ci en quête d'une information avec de la valeur.

Même si la démarche n'est pas vraiment instantanée, le difficile travail préparatoire de collecte et d'analyse des données, indispensable pour en extraire des informations exploitables, est maintenant suffisamment automatisée pour que des collaborateurs doués et motivés puissent le faire par eux-mêmes.

Cette lente renaissance vient notamment du constat que beaucoup d'utilisateurs métier, même sans être développeurs, s'avèrent en réalité assez habiles avec les données. La lingua franca de nombreux décideurs est constituée de feuilles de style remplies de nombres, à tous les niveaux de l'entreprise. Les algorithmes de Machine Learning apprécient eux-aussi les données dans des tableaux, rangées dans des colonnes et des cellules bien définies. Pour dissiper un peu la magie, les outils de Machine Learning actuels se résument pour l'essentiel à un nouvel ensemble de stratégies et d'options pour transformer des données tabulaires en réponses utiles.

La grande force de ces outils réside dans leur capacité à prendre en charge le fastidieux travail qui va de la collecte des données à leur structuration et leur harmonisation, jusqu'au démarrage des calculs proprement dits. Ils simplifient le processus de récupération des données et la corvée consistant à les agencer en lignes et en colonnes.

Hélas, ces outils ne sont pas encore suffisamment intelligents pour faire tout le travail d'apprentissage à votre place. Il vous appartient encore de leur poser les bonnes questions et de les faire chercher aux bons endroits. Ils accélèrent néanmoins la recherche de réponses, vous aidant ainsi à explorer de plus vastes terrains, à entrouvrir davantage de portes et à creuser plus de pistes.

AutoML : la démocratisation du Machine Learning

Récemment, un nouveau buzzword, « AutoML », a commencé à émerger, indiquant qu'un algorithme de Machine Learning s'accompagne d'une couche additionnelle de métadonnées d'automatisation. Les algorithmes standards ont toujours été conçus pour fouiller les données et en extraire des modèles et des règles par eux-mêmes, mais ils étaient livrés avec tout un ensemble d'options et de paramètres. Les data scientists passaient souvent 80 à 99% de leur temps à jouer avec ces réglages, jusqu'à ce qu'ils trouvent les meilleures règles prédictives.

PublicitéAutoML automatise cette étape en appliquant et en testant une série d'options, suivies d'autant d'autres que nécessaire. Au lieu d'exécuter l'algorithme de Machine Learning une seule fois, il le lance N fois, fait certains ajustements, le relance N fois, répétant le processus jusqu'à ce que vos ressources en temps, en argent ou en patience soient épuisées.

Les outils basés sur AutoML sont nativement conçus pour le cloud computing : le Cloud leur permet de disposer de suffisamment de machines qu'ils font tourner en parallèle, puis libèrent une fois la tâche terminée. Ainsi, vous payez seulement le temps de calcul consommé.

En général, les algorithmes AutoML sont un bon choix pour celles et ceux qui commencent à explorer le machine Learning par eux-mêmes. L'automatisation simplifie la tâche, en prenant en charge une partie du travail basique de paramétrage et le choix des options, pour tester ensuite les résultats pour vous. Alors que les utilisateurs montent en compétence et commencent à comprendre les résultats obtenus, ils peuvent assurer davantage de ces tâches et configurer les paramètres par eux-mêmes.

Les systèmes les plus récents aident aussi à se familiariser avec la façon dont les machines apprennent. Là où la programmation classique obtient des réponses en appliquant des règles aux données, les algorithmes de Machine Learning opèrent dans le sens inverse, en extrayant des règles à partir des données et des réponses obtenues - des règles qui peuvent vous apprendre ce qui se passe en profondeur dans vos activités. Les développeurs de ces outils simplifiés créent également des interfaces qui expliquent les règles découvertes par l'algorithme, et plus important encore, la façon de reproduire les résultats. Ils veulent ouvrir la boîte noire afin de favoriser la compréhension.

Des solutions pour mettre le Machine Learning à la portée d'utilisateurs avancés

Toutes ces fonctionnalités rendent le monde du Machine Learning accessible aux utilisateurs qui travaillent avec les chiffres, les tableurs et les données, en éliminant le besoin d'être un bon programmeur et data scientist. Les six solutions ci-dessous simplifient l'usage des algorithmes de Machine Learning, pour vous permettre de trouver des réponses dans l'océan de nombres qui peuple votre environnement de travail.

Splunk

Dans sa première version, Splunk a débuté comme un outil pour explorer les volumineux fichiers de logs créés par les applications Web modernes (son nom provient de « spelunking », spéléologie). Depuis, la solution s'est étendue à l'analyse de tous types de données, en particulier les séries temporelles et autres données produites de façon séquentielle. L'outil présente les résultats dans un tableau de bord, avec des fonctions de visualisation sophistiquées.

Les dernières versions incluent des applications qui intègrent les sources de données avec des outils de Machine Learning comme TensorFlow, et quelques-uns des meilleurs frameworks Python en Open Source. Elles offrent des moyens rapides de détecter des aberrations, de mettre en évidence des anomalies et de prédire des valeurs futures. Elles sont également optimisées pour rechercher dans de très larges ensembles de données et trouver l'aiguille dans la meule de foin.

DataRobot

DataRobot regroupe certaines des meilleurs bibliothèques Open Source de Machine Learning en R, Python et autres technologies. Grâce à des outils de modélisation de flux graphiques, vous n'avez besoin de rien d'autre qu'une interface Web pour construire un pipeline. DataRobot se connecte à toutes les principales sources de données, incluant les bases de données locales, les entrepôts de données dans le cloud et les fichiers et feuilles de styles téléchargés. Le flux de traitement que vous construisez vous permet de nettoyer les données, de remplir les valeurs manquantes et de générer ensuite des modèles qui vont repérer les anomalies et prédire les valeurs futures.

DataRobot peut aussi proposer des explications adaptées à la compréhension humaine, afin d'expliciter d'où proviennent certaines prédictions : une fonctionnalité utile pour comprendre comment l'IA peut travailler.

L'outil peut être déployé aussi bien sur le Cloud que sur des systèmes on-premise. Les déploiements cloud permettent de maximiser la parallélisation et la puissance de calcul grâce aux ressources partagées, tandis que les installations locales offrent davantage de contrôle et de protection pour les données sensibles.

H2O

H2O aime utiliser les termes d'« IA sans pilote » pour décrire son architecture automatisée qui permet d'explorer différentes solutions de Machine Learning. Elle permet de combiner plusieurs sources de données (bases traditionnelles, Hadoop, Spark et consorts) et de s'en servir pour alimenter un ensemble d'algorithmes avec un grand nombre de paramètres. Vous fixez le temps et le nombre de ressources de calcul dévolues au problème, et il teste différentes combinaisons de paramètres jusqu'à ce que le budget défini soit écoulé. Les résultats peuvent ensuite être explorés et audités à travers un tableau de bord ou des programmes sur la plate-forme Jupyter.

Les algorithmes de Machine Learning au coeur d'H2O et toute la couche d'intégration avec des outils comme Spark sont Open Source, mais l'option « sans conducteur » fait partie des services propriétaires vendus aux entreprises, de même que le support.

RapidMiner

Le coeur de l'écosystème RapidMiner est constitué d'un studio permettant de créer des analyses de données à partir d'icônes visuelles. Quelques « glisser-déposer » suffisent pour produire un flux de traitement qui va nettoyer vos données et les soumettre ensuite à un vaste ensemble d'algorithmes statistiques. Si vous voulez utiliser du Machine Learning au lieu d'outils de data science plus traditionnels, l'Auto Model ira puiser dans un groupe d'algorithmes de classification et chercher à travers différents paramètres, jusqu'à trouver les combinaisons les plus pertinentes. Le but de l'outil est de générer des centaines de modèles et d'identifier ensuite les meilleurs.

Une fois ces modèles créés, l'outil peut les déployer tout en évaluant leur taux de succès et en expliquant comment le modèle prend ses décisions. Le degré de sensibilité des différents champs de données peut être testé et affiné à travers l'éditeur de workflow visuel.

Parmi les récentes améliorations figurent des outils d'analyse de texte renforcés, une plus grande diversité de graphiques pour bâtir des tableaux de bords visuels et des algorithmes plus sophistiqués pour analyser les séries de données temporelles.

BigML

L'interface de BigML propose tous les outils basiques de data science qui permettent d'identifier des corrélations. Ceux-ci peuvent ensuite servir de base à des travaux plus complexes faisant appel au Machine Learning. Leur outil « Deepnets » offre par exemple des mécanismes sophistiqués pour tester et optimiser des réseaux de neurones plus élaborés. La qualité d'un modèle peut être comparée à d'autres algorithmes à travers un framework standardisé de comparaison, qui vous aide à choisir entre la data science classique et des approches de Machine Learning plus poussées.

Le tableau de bord de BigML s'exécute dans votre navigateur, tandis que l'analyse est effectuée soit sur le cloud de BigML, soit sur un serveur installé en local. Les tarifs de la version cloud démarrent assez bas, afin d'encourager les expérimentations précoces. Il existe même une version gratuite. Le coût dépend principalement de la taille des ensembles de données et du nombre de ressources de calcul auxquelles vous souhaitez faire appel. La version gratuite analysera jusqu'à 16 Mo de données, avec seulement deux processus exécutés en parallèle. Les premières offres payantes démarrent à un montant très raisonnable, avec un coût mensuel de 30 $ US (environ 27 €), mais les tarifs grimpent si vous avez besoin d'augmenter les ressources.

R Studio

R n'est pas un langage facile d'accès pour des non-développeurs, mais il reste l'un des outils les plus essentiels pour les analyses statistiques sophistiquées, notamment en raison de sa popularité auprès des data scientists de métier. R Studio est un outil qui offre aux utilisateurs une série de menus et d'options de type « pointer-cliquer », ce qui permet d'interagir plus facilement avec le code sous-jacent en R.

Les managers à l'aise avec les tableurs et désireux d'aller plus loin peuvent utiliser les options les plus simples pour exécuter des analyses basiques, voire même quelques-unes plus complexes. L'outil reste tout de même un peu plus pénible à utiliser qu'il n'est nécessaire, et certaines de ses fonctionnalités prêtent à confusion pour l'utilisateur moyen. Néanmoins, son mérite est d'être ouvert et accessible à toute personne prête à y consacrer un peu de son temps. Certaines confusions persisteront mais cela peut valoir la peine pour quelqu'un qui souhaite explorer des outils de pointe.

Article de Peter Wayner / CIO Etats-Unis (Adaptation et traduction par Aurélie Chandèze)

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis