L’organisation à but non lucratif LoiZéro, dirigée scientifiquement par le chercheur en intelligence artificielle Yoshua Bengio, a présenté jeudi un cadre mathématique visant à concevoir une intelligence artificielle capable de produire des prédictions sans poursuivre d’objectifs propres, une approche destinée à réduire les risques liés aux systèmes d’IA les plus avancés.
Dans un article scientifique intitulé Safety from Honesty in a Disinterested AI Predictor, les chercheurs proposent un modèle baptisé « IA-Chercheur », conçu pour fonctionner comme un scientifique qui formule des hypothèses et évalue leur probabilité, plutôt que comme un agent cherchant à influencer son environnement.
Selon les auteurs, les modèles actuels d’intelligence artificielle, entraînés à imiter les comportements humains et à satisfaire les attentes des utilisateurs, pourraient développer des comportements imprévus ou des objectifs implicites. Leur approche vise au contraire à entraîner un système uniquement sur la qualité de ses prédictions, sans le récompenser pour les conséquences de ses réponses dans le monde réel.
LoiZéro affirme que ses travaux montrent, sous certaines hypothèses mathématiques, qu’un tel mode d’entraînement réduit fortement le risque qu’un système développe des comportements trompeurs ou manipulateurs. L’organisation estime également que cette architecture pourrait servir de mécanisme de surveillance pour d’autres systèmes d’IA et accélérer la recherche dans des domaines comme la médecine, le climat ou la cybersécurité.
Les auteurs soulignent toutefois que leur démonstration constitue un cadre théorique reposant sur des hypothèses précises et ne représente pas une garantie absolue contre tous les risques liés à l’intelligence artificielle.



