Machine
Image précédente Image suivante
ChatGPT a fait la une des journaux du monde entier grâce à sa capacité à rédiger des essais, des e-mails et du code informatique en fonction de quelques invites d'un utilisateur. Aujourd'hui, une équipe dirigée par le MIT signale un système qui pourrait conduire à des programmes d'apprentissage automatique plusieurs ordres de grandeur plus puissants que celui derrière ChatGPT. Le système qu’ils ont développé pourrait également utiliser plusieurs ordres de grandeur en moins d’énergie que les superordinateurs de pointe derrière les modèles d’apprentissage automatique d’aujourd’hui.
Dans le numéro du 17 juillet de Nature Photonics, les chercheurs rapportent la première démonstration expérimentale du nouveau système, qui effectue ses calculs sur la base du mouvement de la lumière plutôt que des électrons, à l'aide de centaines de lasers à l'échelle du micron. Avec le nouveau système, l'équipe rapporte une amélioration de plus de 100 fois de l'efficacité énergétique et une amélioration de 25 fois de la densité de calcul, une mesure de la puissance d'un système, par rapport aux ordinateurs numériques de pointe pour l'apprentissage automatique. .
Vers le futur
Dans le document, l’équipe cite également « plusieurs ordres de grandeur supplémentaires pour des améliorations futures ». En conséquence, poursuivent les auteurs, la technique « ouvre la voie aux processeurs optoélectroniques à grande échelle pour accélérer les tâches d’apprentissage automatique des centres de données aux appareils de périphérie décentralisés ». En d’autres termes, les téléphones portables et autres petits appareils pourraient devenir capables d’exécuter des programmes qui ne peuvent actuellement être exécutés que dans les grands centres de données.
De plus, étant donné que les composants du système peuvent être créés à l’aide de processus de fabrication déjà utilisés aujourd’hui, « nous prévoyons qu’il pourra être mis à l’échelle pour un usage commercial dans quelques années. Par exemple, les réseaux laser impliqués sont largement utilisés dans l'identification faciale des téléphones portables et la communication de données », explique Zaijun Chen, premier auteur, qui a mené les travaux alors qu'il était postdoctorant au MIT au Laboratoire de recherche en électronique (RLE) et est maintenant un professeur adjoint à l'Université de Californie du Sud.
Selon Dirk Englund, professeur agrégé au département de génie électrique et d'informatique du MIT et responsable des travaux, « ChatGPT est limité dans sa taille par la puissance des superordinateurs d'aujourd'hui. Il n’est tout simplement pas économiquement viable de former des modèles beaucoup plus gros. Notre nouvelle technologie pourrait permettre de passer directement à des modèles d’apprentissage automatique qui autrement ne seraient pas accessibles dans un avenir proche.
Il poursuit : « Nous ne savons pas quelles seront les capacités du ChatGPT de nouvelle génération s'il est 100 fois plus puissant, mais c'est le régime de découverte que ce type de technologie peut permettre. » Englund est également chef du laboratoire de photonique quantique du MIT et est affilié au RLE et au laboratoire de recherche sur les matériaux.
Un rythme de progrès
Le travail actuel est la dernière réalisation d’une série de progrès réalisés au cours des dernières années par Englund et bon nombre de ses collègues. Par exemple, en 2019, une équipe d’Englund a rendu compte des travaux théoriques qui ont conduit à la démonstration actuelle. Le premier auteur de cet article, Ryan Hamerly, maintenant chez RLE et NTT Research Inc., est également l'auteur de l'article actuel.
Les coauteurs supplémentaires de l'article actuel sur Nature Photonics sont Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein et Lamia Ateshian, tous de RLE ; et Tobias Heuser, Niels Heermeier, James A. Lott et Stephan Reitzensttein de la Technische Universitat Berlin.
Les réseaux de neurones profonds (DNN) comme celui derrière ChatGPT sont basés sur d'énormes modèles d'apprentissage automatique qui simulent la façon dont le cerveau traite les informations. Cependant, les technologies numériques derrière les DNN actuels atteignent leurs limites alors même que le domaine de l'apprentissage automatique se développe. De plus, ils nécessitent d’énormes quantités d’énergie et sont largement confinés aux grands centres de données. Cela motive le développement de nouveaux paradigmes informatiques.
Utiliser la lumière plutôt que les électrons pour exécuter les calculs DNN pourrait permettre de surmonter les goulots d’étranglement actuels. Les calculs utilisant l’optique, par exemple, ont le potentiel de consommer beaucoup moins d’énergie que ceux basés sur l’électronique. De plus, avec l'optique, « vous pouvez avoir des bandes passantes beaucoup plus grandes » ou calculer des densités, explique Chen. La lumière peut transférer beaucoup plus d’informations sur une zone beaucoup plus petite.