Au cours des deux dernières années, presque toutes les discussions sur l’IA ont porté sur la puissance de calcul : pas assez de GPU, capacité de calcul insuffisante et clusters sous-dimensionnés.Il semble que le fait d’accumuler davantage de puissance de calcul résoudra tous les problèmes.
Mais ce rapport souligne à maintes reprises un point crucial : Ce qui ralentit réellement l’IA n’est jamais l’incapacité de calculer, mais l’incapacité de déplacer efficacement les données.
Une statistique rend le problème très clair : La lecture de données depuis une DRAM consomme des centaines de fois plus d’énergie que depuis une SRAM.Pendant ce temps, l’écart de performances entre les processeurs et la mémoire se creuse de près de 50 % chaque année.
Une grande partie de la puissance de calcul que nous construisons frénétiquement attend simplement des données. À ce moment-là, j’ai réalisé quelque chose de frappant : Nous avons peut-être toujours été confrontés au mauvais goulot d’étranglement pour l’IA.
Si le problème n'est pas le calcul lui-même, mais la séparation du calcul et de la mémoire, alors la vraie réponse n’est peut-être pas des GPU plus puissants. C'est laisser la mémoire elle-même participe à l'informatique. C’est la véritable histoire que ce rapport vise à raconter.
Le véritable goulot d’étranglement de la puissance de calcul de l’IA est le déplacement du calcul vers la mémoire, et la solution consiste à déplacer le calcul vers la mémoire.
Le calcul de l’IA repose en grande partie sur des opérations MAC (multiplier-accumuler) massives et est extrêmement gourmand en données. Cependant, l’architecture classique de von Neumann présente un défaut fatal :
Conclusion: L’IA ne parvient pas à calculer : elle ne parvient pas à déplacer les données de manière abordable et suffisamment rapide.
La séparation de l’informatique et de la mémoire impose un déplacement constant des données, ce qui entraîne deux problèmes critiques :
C'est exactement ce que le rapport appelle le von Neumann Goulot d’étranglement.
Une tendance claire du secteur se dessine : Les puces évoluent de deux manières :
Entre-temps, une direction révolutionnaire a émergé : Informatique en mémoire (IMC).
Son idée centrale : Effectuez des opérations logiques, des calculs arithmétiques et des multiplications matricielles (le cœur de l'IA) directement dans la mémoire.
Changement fondamental : Mémoire = Stockage → Mémoire = Compute Engine
Le rapport décrit plusieurs voies de mise en œuvre :
1. SRAM / eDRAM (voie traditionnelle)
Calcul en cache, cache neuronal
Avantages : mature, grande vitesse
Limites : grande surface, évolutivité limitée
2. Mémoire émergente (direction dominante)
Comprenant :
MRAM, PCM, ReRAM, FeRAM
Objectif commun : transformer les matrices de mémoire en moteurs matriciels de multiplication-accumulation avec l'informatique sur place et l'informatique analogique (par exemple, sommation actuelle pour la multiplication vectorielle).
Essence : matrice de mémoire = accélérateur d'IA
Mais de vrais défis demeurent : précision et bruit, variation de l'appareil, dérive de poids (en particulier dans ReRAM) et problèmes de rétention. La voie est viable mais extrêmement difficile en ingénierie.
Le rapport souligne que le matériel seul ne suffit pas : les algorithmes doivent également évoluer.
Conclusion clé: L'optimisation de l'efficacité de l'IA nécessite une conception conjointe de l'architecture, des appareils et des algorithmes.
Le goulot d’étranglement de l’IA passe de « la puissance de calcul insuffisante » à « l’incapacité de déplacer les données assez rapidement ». La réponse pour les puces de nouvelle génération ne réside pas dans des GPU plus puissants, mais mémoire qui peut calculer par elle-même.