
Google DeepMind a publié mercredi un document exhaustif sur son approche en matière de sécurité de l’AGI, définie approximativement comme une IA capable d’accomplir n’importe quelle tâche qu’un humain peut réaliser. L’AGI est un sujet controversé dans le domaine de l’IA, certains prétendant qu’il s’agit davantage d’un rêve qu’autre chose. D’autres, comme de grands laboratoires d’IA tels qu’Anthropic, avertissent que cela est imminent et pourrait entraîner des dommages catastrophiques si des mesures ne sont pas prises pour mettre en place des sauvegardes appropriées.
Le document de 145 pages de DeepMind, co-écrit par le co-fondateur de DeepMind, Shane Legg, prédit que l’AGI pourrait arriver d’ici 2030 et entraîner ce que les auteurs appellent des “dommages graves”. Le document ne définit pas concrètement cela, mais donne l’exemple alarmiste de “risques existentiels” qui “détruiraient définitivement l’humanité”. “[Nous anticipons] le développement d’un AGI exceptionnel avant la fin de la décennie actuelle”, ont écrit les auteurs. “Un AGI exceptionnel est un système capable de correspondre au moins au 99ème percentile des adultes qualifiés dans une large gamme de tâches non-physiques, y compris des tâches métacognitives comme l’apprentissage de nouvelles compétences.”
[[IMG::]]

Dès le départ, le document compare l’approche de DeepMind en matière de mitigation des risques de l’AGI avec celles d’Anthropic et d’OpenAI. Anthropic, dit-il, accorde moins d’importance à “la formation robuste, la surveillance et la sécurité”, tandis qu’OpenAI est trop optimiste quant à “l’automatisation” d’une forme de recherche en matière de sécurité de l’IA connue sous le nom de recherche d’alignement. Le document remet également en question la viabilité de l’IA superintelligente – une IA capable d’effectuer des tâches mieux que n’importe quel humain. (OpenAI a récemment affirmé qu’il concentrait désormais ses efforts sur l’IA superintelligente.) En l’absence d’une “innovation architecturale significative”, les auteurs de DeepMind ne sont pas convaincus que des systèmes superintelligents émergeront bientôt – voire jamais. Cependant, le document estime possible que les paradigmes actuels permettront une “amélioration récursive de l’IA” : une boucle de rétroaction positive où l’IA mène ses propres recherches en IA pour créer des systèmes d’IA plus sophistiqués. Et cela pourrait être incroyablement dangereux, affirment les auteurs.
À un niveau élevé, le document propose et plaide en faveur du développement de techniques pour bloquer l’accès des mauvais acteurs à l’AGI hypothétique, améliorer la compréhension des actions des systèmes d’IA, et “renforcer” les environnements dans lesquels l’IA peut agir. Il reconnaît que bon nombre de ces techniques sont naissantes et comportent “des problèmes de recherche ouverts”, mais met en garde contre le fait de négliger les défis de sécurité qui pourraient se profiler à l’horizon. “La nature transformative de l’AGI a le potentiel de générer à la fois des avantages incroyables et des dommages graves”, écrivent les auteurs. “Par conséquent, pour construire de manière responsable l’AGI, il est essentiel que les développeurs d’IA de pointe planifient de manière proactive la mitigation des dommages graves.” Certains experts ne sont toutefois pas d’accord avec les prémisses du document.
Heidy Khlaaf, scientifique en chef de l’IA à l’Institut AI Now, a déclaré à TechCrunch qu’elle pense que le concept d’AGI est trop mal défini pour être “rigoureusement évalué scientifiquement”. Un autre chercheur en IA, Matthew Guzdial, professeur adjoint à l’Université de l’Alberta, a déclaré qu’il ne croit pas que l’amélioration récursive de l’IA soit réaliste pour l’instant. “L’amélioration récursive est la base des arguments sur la singularité de l’intelligence”, a déclaré Guzdial à TechCrunch, “mais nous n’avons jamais vu de preuve qu’elle fonctionne.” Sandra Wachter, une chercheuse en études sur la technologie et la réglementation à Oxford, soutient qu’une préoccupation plus réaliste est que l’IA se renforce elle-même avec des “sorties inexactes”. “Avec la prolifération des sorties de l’IA générative sur Internet et le remplacement progressif des données authentiques, les modèles apprennent maintenant de leurs propres sorties, qui sont truffées de mensonges ou d’hallucinations”, a-t-elle déclaré à TechCrunch. “À ce stade, les chatbots sont principalement utilisés pour la recherche et la recherche de vérité. Cela signifie que nous sommes constamment exposés au risque de nous nourrir de mensonges et de les croire parce qu’ils sont présentés de manière très convaincante.” Aussi complet soit-il, le document de DeepMind semble peu probable de mettre fin aux débats sur la réalité de l’AGI – et sur les domaines de la sécurité de l’IA les plus urgentes à traiter.