Technologies

8 échecs emblématiques de l'IA et des applications analytiques

Les biais dans les données ou un usage mal contrôlé de l'IA peuvent avoir des effets dévastateurs sur l’image. Microsoft, Amazon, Target ou encore Zillow en ont fait les frais. (Photo : Possessed Photography / Unsplash)

Les enseignements tirés des données et des algorithmes d'apprentissage automatique peuvent s'avérer inestimables pour l'activité d'une organisation... ou dévastateurs ! Les erreurs de l'analyse de données peuvent vous coûter votre réputation, votre chiffre d'affaires, voire des vies. En voici 8 exemples célèbres.

PublicitéEn 2017, The Economist déclarait que les données, plutôt que le pétrole, étaient devenues la ressource la plus précieuse au monde. Le refrain n'a cessé d'être répété depuis. Les organisations de tous secteurs ont investi et continuent d'investir massivement dans les données et l'analytique. Mais comme le pétrole, les données et les applications analytiques ont leur côté obscur.

Selon le rapport State of the CIO 2023, publié par CIO, 34 % des responsables informatiques affirment que les données et l'analytique seront la source de la majeure partie des investissements IT au sein de leur organisation cette année. Et 26 % des DSI soulignent que le Machine Learning (ML) et l'IA seront les principaux facteurs d'investissement IT. Les informations tirées de l'analytique et les opérations automatisées par les algorithmes de ML peuvent donner aux organisations un avantage concurrentiel. Mais les erreurs qu'ils entraînent peuvent aussi s'avérer coûteuses en termes de réputation, de revenus, voire de vies humaines.

Voici une poignée de bévues très médiatisées en matière d'analytique et d'IA au cours de la dernière décennie, des épisodes qui illustrent tout ce qui peut mal tourner avec ces outils quand on ne perçoit pas leurs limites, quand on maîtrise pas les données qu'ils traitent ou quand on perd de vue les valeurs cardinales de son organisation.

1. ChatGPT hallucine le droit

Les progrès réalisés en 2023 par les grands modèles de langage (LLM) ont suscité un intérêt généralisé pour le potentiel de transformation de l'IA générative dans presque tous les secteurs d'activité. Le ChatGPT d'OpenAI a été au centre de ce regain d'intérêt, préfigurant la façon dont l'IA générative allait perturber la nature du travail dans presque tous les secteurs d'activité.

Mais la technologie a encore du chemin à faire avant de pouvoir prendre en charge de manière fiable la plupart des processus métiers, comme l'a appris à ses dépens l'avocat Steven A. Schwartz après avoir utilisé ChatGPT pour rechercher des précédents dans un procès contre la compagnie aérienne colombienne Avianca.

Steven Schwartz, un avocat du cabinet Levidow, Levidow & Oberman, a utilisé le chatbot d'IA générative d'OpenAI pour trouver des cas antérieurs afin d'étayer une plainte déposée par Roberto Mata, un employé d'Avianca, pour les blessures qu'il a subies en 2019. Le seul problème ? Au moins six des cas présentés dans son argumentation n'existaient pas. Dans un document déposé en mai, le juge P. Kevin Castel, en charge d'examiner ce cas, a noté que les affaires soumises par M. Schwartz comportaient de faux noms et de faux numéros de dossier, ainsi que de fausses références internes et de fausses citations.

PublicitéDans une déclaration sous serment, Steven Schwartz a assuré au tribunal que c'était la première fois qu'il utilisait ChatGPT comme source de recherche juridique et qu'il n'était « pas conscient de la possibilité que son contenu puisse être faux ». Il a admis qu'il n'avait pas confirmé les sources fournies par le chatbot. Et de « regretter vivement d'avoir utilisé l'intelligence artificielle générative pour compléter la recherche juridique effectuée dans le présent document ». L'avocat a assuré qu'on ne l'y reprendra plus. En juin 2023, Steven Schwartz s'exposait à d'éventuelles sanctions de la part du tribunal.

2. Les algorithmes d'IA identifient tout sauf le Covid-19

Depuis le début de la pandémie de Covid-19, de nombreuses organisations ont cherché à exploiter des algorithmes de ML pour aider les hôpitaux à diagnostiquer ou à trier les patients plus rapidement. Mais selon l'Institut Turing du Royaume-Uni, un centre national pour la data science et l'IA, les outils prédictifs n'ont fait que peu ou pas de différence dans le traitement de l'épidémie.

Dans un article publié en juillet 2021, La MIT Technology Review a fait état d'un certain nombre d'échecs, dont la plupart découlent d'erreurs dans la manière dont les outils ont été entrainés ou testés. L'utilisation de données mal étiquetées ou de données provenant de sources inconnues est une source d'échec courante.

Derek Driggs, chercheur en apprentissage automatique à l'université de Cambridge, et ses collègues ont publié un article dans Nature Machine Intelligence qui explore l'utilisation de modèles de Deepl Learning pour diagnostiquer le virus. L'article a déterminé que la technique n'était pas adaptée à une utilisation clinique. Par exemple, le groupe de Derek Driggs a constaté que son propre modèle était défectueux parce qu'il avait été entraîné sur un ensemble de données comprenant des scanners de patients allongés et de patients debout. Les patients allongés étant beaucoup plus susceptibles d'être gravement malades, l'algorithme a appris à identifier le risque de Covid en fonction de la position de la personne dans le scanner.

Un exemple similaire est celui d'un algorithme formé à partir d'un ensemble de données comprenant des scanners de thorax d'enfants en bonne santé. L'algorithme a appris à identifier les enfants, et non les patients à haut risque.

3. Dans l'immobilier, Zillow victime d'un désastre algorithmique

En novembre 2021, la marketplace de l'immobilier Zillow a annoncé à ses actionnaires qu'elle mettrait fin à ses activités appelées Zillow Offers et qu'elle réduirait de 25 % ses effectifs, soit environ 2 000 personnes, au cours des prochains trimestres. Les difficultés du spécialiste de la vente de maisons sont dues au taux d'erreur de l'algorithme de ML qu'il utilise pour prédire les prix des biens.

Le programme Zillow Offers permettait à l'entreprise de faire des offres d'achat au comptant sur des biens immobiliers, sur la base d'une estimation de la valeur desdits biens, dérivée d'un algorithme de ML. L'idée était de rénover les propriétés et de les revendre rapidement. Mais un porte-parole de Zillow a reconnu, au micro de CNN, que l'algorithme avait un taux d'erreur médian de 1,9 %, et que le taux d'erreur pouvait être beaucoup plus élevé, jusqu'à 6,9 %, pour les maisons hors marché.

Selon CNN, Zillow a acheté 27 000 maisons par le biais de Zillow Offers depuis son lancement en avril 2018, mais n'en a vendu que 17 000 jusqu'à la fin du mois de septembre 2021. Des événements de type cygne noir, comme la pandémie de Covie-19 et la pénurie de main-d'oeuvre dans le domaine de la rénovation de logements, sont venus se greffer aux problèmes de précision de l'algorithme.

Zillow a reconnu que l'algorithme l'avait conduit à acheter des maisons à des tarifs plus élevés que les estimations qu'il avait effectué à posteriori, ce qui a entraîné une dépréciation des stocks de 304 millions de dollars au troisième trimestre 2021. Lors d'une conférence téléphonique avec les investisseurs, le cofondateur et PDG de Zillow, Rich Barton, a déclaré qu'il serait peut-être possible de modifier l'algorithme, mais qu'en fin de compte, c'était trop risqué.

4. Quand Excel fait disparaître des milliers de cas de Covid

En octobre 2020, Public Health England (PHE), l'organisme public britannique chargé de recenser les nouvelles infections par le virus Covid-19, a révélé que près de 16 000 cas de coronavirus n'avaient pas été signalés entre le 25 septembre et le 2 octobre. Le coupable ? Les limites des données dans Microsoft Excel.

Le PHE utilise un processus automatisé pour transférer les résultats des laboratoires positifs au Covid-19 sous forme de fichier CSV dans des modèles Excel utilisés pour les tableaux de bord et pour la recherche des contacts. Malheureusement, les feuilles de calcul Excel ne peuvent contenir plus de 1 048 576 lignes et 16 384 colonnes. Or, l'EPS répertoriait les cas en colonnes plutôt qu'en lignes. La conséquence ? Lorsque les cas positifs ont dépassé la limite des 16 384 colonnes, Excel a coupé les enregistrements supplémentaires. Soit 15 841 cas.

Ce pépin n'a pas empêché les personnes testées de recevoir leurs résultats, mais il a paralysé les efforts de contact tracing, compliquant ainsi la tâche du service national de santé britannique (NHS) pour identifier et notifier les personnes ayant été en contact étroit avec des patients infectés. Dans une déclaration faite le 4 octobre, Michael Brodie, directeur général par intérim de PHE, a expliqué que NHS Test and Trace et PHE avaient résolu le problème rapidement et transféré immédiatement tous les cas en suspens dans le système de recherche de contacts de NHS Test and Trace.

PHE a mis en place une mesure de contournement qui consiste à diviser les fichiers volumineux et a procédé à un examen complet de tous ses systèmes afin d'éviter que des incidents similaires ne se reproduisent à l'avenir.

5. Dans la santé, un algorithme ne signale pas les patients noirs

En 2019, une étude publiée dans Science a révélé qu'un algorithme de prédiction des soins de santé, utilisé par les hôpitaux et les compagnies d'assurance à travers les États-Unis pour identifier les patients nécessitant des programmes de "gestion des soins à haut risque", était beaucoup moins susceptible d'identifier les patients noirs.

Les programmes de gestion des soins à haut risque permettent aux patients atteints de maladies chroniques de bénéficier d'un personnel infirmier qualifié et d'un suivi des soins primaires afin de prévenir les complications graves. Mais l'algorithme avait beaucoup plus tendance à recommander ces programmes aux patients blancs qu'aux patients noirs.
L'étude a montré que l'algorithme utilisait les dépenses de santé comme indicateur pour déterminer les besoins de santé d'un individu. Or, selon Scientific American, les dépenses de santé des patients noirs les plus malades étaient comparables à celles des personnes blanches en meilleure santé, ce qui signifie qu'ils recevaient des scores de risque inférieurs, même si leurs besoins étaient plus importants.

Les chercheurs de l'étude suggèrent que plusieurs facteurs peuvent avoir contribué à cette situation. Tout d'abord, les personnes de couleur sont plus susceptibles d'avoir des revenus plus faibles, ce qui, même lorsqu'elles sont assurées, peut limiter leur accès aux soins médicaux. Les préjugés implicites peuvent également amener les personnes de couleur à recevoir des soins de moindre qualité. Bien que l'étude n'ait pas nommé l'algorithme en cause, les chercheurs ont déclaré au Scientific American qu'ils travaillaient avec le développeur de celui-ci pour remédier à la situation.

6. Pollué par des données, le chatbot de Microsoft devient raciste

En mars 2016, Microsoft a appris que l'utilisation des interactions Twitter comme données d'entraînement pour les algorithmes de ML peut produire des résultats calamiteux. Microsoft a publié Tay, un chatbot d'IA, sur le réseau social. L'entreprise l'a décrit comme une expérience de « compréhension conversationnelle ». L'idée était que le chatbot prenne l'apparence d'une adolescente et interagisse avec des personnes via Twitter en utilisant une combinaison d'apprentissage automatique et de traitement du langage naturel. Microsoft l'a doté de données publiques anonymes et d'éléments pré-écrits par des humoristes, puis l'a laissé libre d'apprendre et d'évoluer à partir de ses interactions sur le réseau social.

En l'espace de 16 heures, le chatbot a publié plus de 95 000 tweets, qui sont rapidement devenus ouvertement racistes, misogynes et antisémites. Microsoft a rapidement suspendu le service pour procéder à des ajustements et l'a finalement débranché.

« Nous sommes profondément désolés pour les tweets involontairement offensants et blessants de Tay, qui ne représentent pas ce que nous sommes, ce que nous défendons, ni la manière dont nous avons conçu Tay », a écrit Peter Lee, vice-président de Microsoft Research & Incubations (puis vice-président de Microsoft Healthcare), dans un message publié sur le blog officiel de Microsoft à la suite de l'incident.

Peter Lee a souligné que le prédécesseur de Tay, Xiaoice, lancé par Microsoft en Chine en 2014, avait réussi à avoir des conversations avec plus de 40 millions de personnes au cours des deux années précédant la sortie de Tay. Ce que Microsoft n'a pas pris en compte, c'est qu'un groupe d'utilisateurs de Twitter se mettrait immédiatement à tweeter des messages racistes et misogynes. Le robot s'est rapidement inspiré de ce matérau et l'a incorporé dans ses propres tweets.

« Bien que nous nous soyons préparés à de nombreux types d'abus du système, nous avons manqué de contrôle face à cette attaque spécifique. En conséquence, Tay a tweeté des mots et des images totalement inappropriés et répréhensibles », a écrit Peter Lee.

7. Amazon : une IA de recrutement qui ne recommande que les hommes

Comme beaucoup de grandes entreprises, Amazon est à la recherche d'outils pouvant aider sa fonction RH à sélectionner les meilleurs candidats. En 2014, Amazon a commencé à travailler sur un logiciel de recrutement alimenté par l'IA. Seul problème : le système préférait largement les candidats masculins ! En 2018, Reuters a révélé qu'Amazon avait abandonné le projet.

Le système d'Amazon attribuait aux candidats des notes sous forme d'étoiles allant de 1 à 5, mais les modèles d'apprentissage automatique au coeur du système avaient été formés sur 10 ans de CV soumis à Amazon - la plupart d'entre eux provenant d'hommes. À partir de ces données d'entraînement, le système a commencé à pénaliser les phrases du CV contenant le mot "féminin" et a même déclassé des candidates issues d'universités exclusivement féminines.

À l'époque, Amazon a déclaré que l'outil n'avait jamais été utilisé par ses recruteurs pour évaluer les candidats. L'entreprise a tenté de modifier l'outil pour le rendre neutre vis-à-vis du genre ders candidats, mais a finalement décidé de jeter l'éponge, estimant qu'elle ne pouvait pas garantir que l'algorithme n'apprendrait pas une autre façon discriminatoire de trier les candidats.

8. L'outil analytique de Target viole la vie privée

En 2012, un projet analytique du géant de la distribution Target a montré tout ce que les entreprises peuvent apprendre sur leurs clients à partir de leurs données. Selon le New York Times, en 2002, le service marketing de Target s'est demandé comment déterminer si les clientes étaient enceintes. Cette question a débouché sur un projet d'analyse prédictive qui a conduit le détaillant à révéler par inadvertance à la famille d'une adolescente qu'elle était enceinte. Cela a donné lieu à une avalanche d'articles et de billets de blogs citant l'incident.

Le service marketing de Target souhaitait identifier les femmes enceintes parce qu'il existe certaines périodes de la vie - notamment la grossesse - au cours desquelles les gens sont le plus susceptibles de changer radicalement leurs habitudes d'achat. Si Target parvenait à toucher les clients pendant cette période, l'enseigne pourrait, par exemple, cultiver de nouveaux comportements chez ces clients, en les incitant à se tourner vers ses magasins pour leurs courses, leurs vêtements ou d'autres produits.

Comme tous les autres grands distributeurs, Target a recueilli des données sur ses clients par le biais de codes de réduction, de cartes de crédit, d'enquêtes, etc. Ces données ont été combinées à des données démographiques et à des données achetées à des tiers. L'analyse de toutes ces données a permis à l'équipe d'analystes de Target de déterminer qu'environ 25 produits vendus par l'enseigne pouvaient être analysés ensemble pour générer un score de prédiction de grossesse. Il ne restait alors plus au service marketing qu'à cibler les clientes ayant obtenu un score élevé en leur proposant des coupons de réduction et des messages marketing.

Des recherches supplémentaires ont révélé que ce type d'étude est jugé effrayante par certains consommateurs. Selon le Times, le distributeur n'a toutefois pas renoncé à son marketing ciblé, mais a commencé à mélanger des publicités pour des produits éloignés des préoccupations des femmes enceintes - comme des tondeuses à gazon à côté de publicités pour des couches - afin que le mix des publicités proposé paraisse aléatoire aux yeux des consommateurs.