Le véritable goulot d’étranglement de l’IA n’est pas la puissance de calcul, mais le mouvement des données : l’informatique en mémoire devient la solution

Au cours des deux dernières années, presque toutes les discussions sur l’IA ont porté sur la puissance de calcul : pas assez de GPU, capacité de calcul insuffisante et clusters sous-dimensionnés.Il semble que le fait d’accumuler davantage de puissance de calcul résoudra tous les problèmes.

Mais ce rapport souligne à maintes reprises un point crucial : Ce qui ralentit réellement l’IA n’est jamais l’incapacité de calculer, mais l’incapacité de déplacer efficacement les données.

Une statistique rend le problème très clair : La lecture de données depuis une DRAM consomme des centaines de fois plus d’énergie que depuis une SRAM.Pendant ce temps, l’écart de performances entre les processeurs et la mémoire se creuse de près de 50 % chaque année.

Une grande partie de la puissance de calcul que nous construisons frénétiquement attend simplement des données. À ce moment-là, j’ai réalisé quelque chose de frappant : Nous avons peut-être toujours été confrontés au mauvais goulot d’étranglement pour l’IA.

Si le problème n'est pas le calcul lui-même, mais la séparation du calcul et de la mémoire, alors la vraie réponse n’est peut-être pas des GPU plus puissants. C'est laisser la mémoire elle-même participe à l'informatique. C’est la véritable histoire que ce rapport vise à raconter.

Message central du rapport

Le véritable goulot d’étranglement de la puissance de calcul de l’IA est le déplacement du calcul vers la mémoire, et la solution consiste à déplacer le calcul vers la mémoire.

Le vrai problème : l’efficacité de l’IA est limitée par le mouvement des données

Le calcul de l’IA repose en grande partie sur des opérations MAC (multiplier-accumuler) massives et est extrêmement gourmand en données. Cependant, l’architecture classique de von Neumann présente un défaut fatal :

L'écart de performances entre les processeurs et la DRAM ne cesse de se creuser (environ 50 % par an)
Le coût énergétique de l'accès à la mémoire est bien plus élevé que le calcul lui-même (énergie de lecture de la DRAM ≈ 100 × celle de la SRAM)

Conclusion: L’IA ne parvient pas à calculer : elle ne parvient pas à déplacer les données de manière abordable et suffisamment rapide.

Contradiction fondamentale : le goulot d’étranglement de von Neumann

La séparation de l’informatique et de la mémoire impose un déplacement constant des données, ce qui entraîne deux problèmes critiques :

Latence élevée
Une consommation d’énergie qui explose

C'est exactement ce que le rapport appelle le von Neumann Goulot d’étranglement.

Tendance clé : la mémoire devient le nouveau centre informatique

Une tendance claire du secteur se dessine : Les puces évoluent de deux manières :

La mémoire sur puce (SRAM) ne cesse de s'étendre
La bande passante mémoire ne cesse d’augmenter

Entre-temps, une direction révolutionnaire a émergé : Informatique en mémoire (IMC).

Son idée centrale : Effectuez des opérations logiques, des calculs arithmétiques et des multiplications matricielles (le cœur de l'IA) directement dans la mémoire.

Changement fondamental : Mémoire = Stockage → Mémoire = Compute Engine

Parcours techniques : de la SRAM aux mémoires émergentes

Le rapport décrit plusieurs voies de mise en œuvre :

1. SRAM / eDRAM (voie traditionnelle)
Calcul en cache, cache neuronal
Avantages : mature, grande vitesse
Limites : grande surface, évolutivité limitée

2. Mémoire émergente (direction dominante)
Comprenant : MRAM, PCM, ReRAM, FeRAM

Objectif commun : transformer les matrices de mémoire en moteurs matriciels de multiplication-accumulation avec l'informatique sur place et l'informatique analogique (par exemple, sommation actuelle pour la multiplication vectorielle).

Essence : matrice de mémoire = accélérateur d'IA

Mais de vrais défis demeurent : précision et bruit, variation de l'appareil, dérive de poids (en particulier dans ReRAM) et problèmes de rétention. La voie est viable mais extrêmement difficile en ingénierie.

Solution système : co-optimisation matériel-algorithme

Le rapport souligne que le matériel seul ne suffit pas : les algorithmes doivent également évoluer.

Compression du modèle : élagage, parcimonie, décomposition de bas rang
Calcul de basse précision : réseaux de neurones binaires à virgule fixe
Formation prenant en compte le matériel : STE, parcimonie des tranches de bits

Conclusion clé: L'optimisation de l'efficacité de l'IA nécessite une conception conjointe de l'architecture, des appareils et des algorithmes.

Conclusion finale

La mémoire sur puce est devenue la ressource essentielle des systèmes d'IA
Les mémoires émergentes font de l’intégration mémoire-calcul la direction dominante
Les puces IA de nouvelle génération nécessitent une co-conception multicouche, des appareils aux algorithmes

Résumé

Le goulot d’étranglement de l’IA passe de « la puissance de calcul insuffisante » à « l’incapacité de déplacer les données assez rapidement ». La réponse pour les puces de nouvelle génération ne réside pas dans des GPU plus puissants, mais mémoire qui peut calculer par elle-même.

Sélectionnez une langue pour l'affichage