Intelligence Artificielle (IA): ChatGPT, le robot qui écrit et fait parler de lui (1)
L’intelligence artificielle se définit simplement comme un ensemble de techniques visant à imiter le fonctionnement du cerveau humain. Depuis des décennies, elle suscite des espoirs, des craintes, une quantité innombrable de scénarios, de réactions et d’analyses, mais aussi une masse d’initiatives et d’investissements. Un point semble consensuel entre soutiens et détracteurs : les impacts dans de nombreux domaines – médecine, éducation, formation, médias – seront immenses.
Qu’est-ce que ChatGPT ?
Selon Open AI, la société conceptrice, ChatGPT est un “modèle capable d’interagir de façon conversationnelle”. Il peut “répondre à des questions, admettre ses erreurs, remettre en cause des propositions fausses ou rejeter des requêtes inappropriées“. Extrêmement simple d’utilisation, le site d’Open AI propose de tester une version expérimentale ici. Cette version gratuite nécessite une identification personnelle avancée en requérant non seulement une adresse e-mail mais aussi un numéro de téléphone (“Your number will only be used to verify your identity for security purposes.”) pour des “raisons de sécurité” bien surprenantes. Ces processus d’identifications avancées obligatoires montrent d’abord que l’accès aux services de ce chatbot n’est pas gratuit puisque le “prix” à payer est de fournir des données personnelles. En creusant la politique de confidentialité de ChatGPT, il apparait que les données collectées après l’identification sont de plusieurs natures : des données de localisation, de comportements sur les réseaux sociaux, des types de requêtes formulées dans l’interface, les sites web consultés grâce aux cookies déposés sur l’ordinateur. On notera que ChatGPT ne respecte pas de nombreuses régulations de la RGPD (Régulation Générale de Protection des Données) européenne :
- Le site ChatGPT ne demande pas l’autorisation de déposer des cookies en infraction avec la régulation européenne RGPD…
- Toutes les données personnelles peuvent être partagées avec des partenaires tiers sans aucune information aux utilisateurs.
- Les données personnelles sont transférées sur des serveurs américains à nouveau en infraction avec la régulation européenne.
- Le Chatbot s’appuie sur une base de données qui a été constituée à partir d’une aspiration de toutes les données du web jusqu’en 2021. Or de nombreuses données personnelles sont disponibles sur le web sans que l’autorisation ait été donnée pour les utiliser.
C’est donc une différence majeure avec des moteurs de recherche classiques qui ne nécessitent pas d’obligation d’identification personnelle. Cette version gratuite a pour but officiel d’”obtenir des retours externes afin d’améliorer notre système et le rendre plus sûr”. Le site signale également que « les conversations peuvent être revues par nos entraineurs d’IA“, et invite à « ne pas partager d’informations sensibles ». OpenAI prétend que les données des utilisateurs servent à améliorer son système. C’est évidemment impossible en temps réel car les périodes d’apprentissage sont très longues (plus d’un mois pour GPT-3 !). Toutes ces données personnelles sont donc stockées à des fins d’amélioration ultérieures.
ChatGPT est un assistant virtuel avec lequel un internaute peut converser. GPT est l’acronyme de Generative Pre-trained Transformer.
- “Transformer” désigne un type de modèle d’apprentissage profond (deep learning) avec plusieurs couches de réseaux de neurones artificiels interconnectant un très grand nombre de processeurs. Cette technologie a été mise au point par des ingénieurs de Google en 2017, et est également utilisée par LaMDA le robot conversationnel de Google.
- “Generative” signifie que cette technologie génère les mots les plus probables qui peuvent s’enchainer de manière séquentielle à partir de phrases observées dans un grand corpus de textes (à l’inverse des générateurs de textes de précédente génération qui se basaient sur des règles syntaxiques et grammaticales). Cette capacité générative permet de produire du narratif, c’est à dire de générer des textes imaginatifs dans le style de tel ou tel auteur.
- “PreTrained” indique que le modèle a été pré-entrainé par des techniques d’apprentissage auto-supervisé (sans humains pour valider les résultats) puis par renforcement (avec humains). Ce dernier type d’apprentissage fait appel à des humains (la condition des travailleurs sous-payés a été révélée par Time) pour qualifier et pénaliser les textes générés le cas échéant (pédophiles, sexistes…). La base de données du ChatGPT est immense (GPT-3, la technologie sous-jacente a pu absorber 45 Teraoctets de textes, ce qu’un humain mettrait 500000 vies à lire). Elle n’est pas connectée à internet en direct, et les données enregistrées (incluant les données du web) s’arrêtent à 2021. D’un point de vue technologique, ChatGPT constitue l’aboutissement de plus de 20 ans de développement dans le traitement du langage naturel mais il ne s’agit pas en tant que tel d’une rupture technologique comme l’indique Yann Le Cun, directeur de l‘intelligence artificielle chez Meta qui ne considère pas ChatGPT comme révolutionnaire.
Quelle est la fiabilité des réponses fournies par ChatGPT ?
La liste des limitations de ChatGPT issues du propre site de développement d’Open Ai montre à quel point ce système peut être instable (sensible à la formulation des questions), non fiable (réponses fausses, incohérentes voire imaginées), très verbeux en essayant de générer un maximum de texte avec beaucoup de formules de politesse sans compter le filtre de modération qui peut censurer de manière arbitraire certaines réponses (sur des critères discriminatoires par exemple). Les exemples de fausses réponses de ChatGPT sont très nombreux : de la localisation des grottes de Lascaux en Bretagne à l’attribution erronée d’écritures de livres ou d’animations d’émission à de célèbres journalistes ChatGPT : première interview radio de l’intelligence artificielle – L’invité de Sonia Devillers.
A la question factuelle (“Combien y a-t-il d’IVG en France?”), la réponse est assez imprécise et inexacte sans être totalement fausse :
“Il n’y a pas de chiffre officiel exact sur le nombre d’avortements en France. Les données les plus récentes disponibles proviennent de l’Institut national de la statistique et des études économiques (INSEE) et datent de 2018. Selon ces données, environ 220 000 avortements ont été réalisés en France en 2018. Cependant, il est important de noter que ce chiffre peut ne pas inclure tous les avortements, car certains peuvent ne pas être déclarés.”
Cette réponse est surprenante alors que les données sur le nombre d’IVG en France sont tout à fait disponibles notamment sur le site de la Drees (Direction de la Recherche, des Études, de l’Évaluation et des Statistiques).
Le marché de l’intelligence artificielle en rapide expansion
OpenAI est au départ un laboratoire de recherche en intelligence artificielle (IA) avec un statut associatif (“non profit”). Cette start-up fondée à San Francisco en 2015, compte notamment parmi ses fondateurs Peter Thiel (PayPal, Palantir), Elon Musk (Tesla, SpaceX, Neuralink, Twitter…), Reid Hoffman (le réseau social Linked In).
En plus de ChatGPT qui aura une application commerciale, OpenAI a produit un logiciel DALL-E, générant des images à partir de descriptions en langage naturel. Le site propose au visiteur de tester quelques possibilités de création. Devenue société (“For profit”) en 2019, OpenAI serait valorisée autour de 29 milliards de dollars cette année, soit le double comparé à 2021. Microsoft, après avoir investi 1 milliard en 2019, a annoncé un nouveau partenariat pour les années à venir, estimé à 10 milliards de dollars. Par comparaison, selon un analyste, le coût pour créer ChatGPT est estimé entre 100 et 150 millions de dollars.
Selon Statista, les revenus mondiaux de l’IA ont été multipliés par 16 entre 2015 et 2022. Le modèle économique de ChatGPT pourrait aussi bouleverser la hiérarchie actuelle des GAFA (Google, Apple, Facebook, Amazone). Google tire 81% de ses 260 milliards de revenu des publicités liées à son moteur de recherche en 2021. Au total, 1 million d’utilisateurs auraient testé ChatGPT dans la semaine de son lancement. Un basculement massif d’utilisateurs viendrait-il bousculer ce marché des annonces payantes ? En riposte, Google a indiqué le 6 Février 2023 qu’il lançait Bard avec une « version allégée » de « LaMDA », « nécessitant une puissance de calcul moindre » pour permettre l’utilisation par un « plus grand nombre d’utilisateurs » et « de traiter un volume plus important de retours. »
Si ChatGPT n’apporte pas une rupture technologique, sa mise à disposition à un public large percute le secteur des technologies numériques. Le plan de communication déroulé depuis l’annonce d’OpenAI est également intimement lié à une stratégie financière dans un secteur en forte concurrence. La question des impacts pour le public mérite une réflexion, de la part des utilisateurs mais aussi des pouvoirs publics. Ce sujet sera abordé la semaine prochaine.