La crise cachée de la DRAM et de la NAND : les données de l’ère de l’IA ne peuvent pas rester stockées
À l’ère de l’intelligence artificielle, nous nous sommes longtemps concentrés sur la puissance, la capacité et la vitesse de calcul.Nous ajoutons plus de DRAM, empilons HBM et développons la NAND 3D pour prendre en charge des modèles plus grands et une inférence plus rapide.Mais une crise silencieuse et dangereuse est en train d’émerger : les données ne peuvent plus rester stockées de manière fiable.
À mesure que l’IA évolue de l’IA générative à l’IA agentique autonome, les systèmes nécessitent un état persistant, une mémoire à long terme et une prise de décision continue.Ils ne peuvent plus tolérer les données temporaires ou instables.Dans le même temps, la mise à l’échelle incessante de la DRAM et de la NAND pour atteindre une densité plus élevée érode sérieusement la rétention des données et la marge d’erreur.
Le principal défi du stockage a changé : de « pouvons-nous le stocker ? »à "pouvons-nous le conserver correctement?"
Tendance principale : l'IA rend la fiabilité du stockage essentielle
Les systèmes d’IA ne sont plus des tâches informatiques ponctuelles.L'IA agentique moderne s'appuie sur :
- Mémoire à long terme
- État du système soutenu
- Prise de décision autonome et continue
Cela signifie que le stockage doit maintenir des données précises au fil du temps, pas seulement pour une courte période.La fiabilité est devenue un facteur décisif pour la stabilité de l’infrastructure d’IA.
Cause fondamentale : la mise à l'échelle réduit la fiabilité
Les améliorations de densité nuisent directement à la stabilité.Il s’agit d’un compromis inévitable.
Pour Flash NAND
- Dimensions XY réduites
- Augmentation des couches d'empilement 3D
- Résultat : marge d’erreur plus faible, perte de charge plus facile
Pour la DRAM
- Transition vers la DRAM 3D
- Taille de cellule plus petite
- Résultat : temps de rétention plus court, tolérance au bruit inférieure
Règle : densité plus élevée = fiabilité moindre
Le problème essentiel de la NAND : la perte de charge
L'échec NAND se résume à perte de charge, ce qui se produit de deux manières principales :
- Fuite de charge verticale – la charge s'échappe dans le canal
- Diffusion de charge latérale – la charge se propage entre les lignes de mots
Échec de rétention à court terme ou à long terme
- Court terme : pièges peu profonds, décalage de tension initial (IVS), les changements apparaissent rapidement
- Long terme : Pièges profonds, mécanismes combinés (TAT/DT/TE), les problématiques se complexifient avec le temps
La faiblesse cachée de la DRAM : elle ne peut pas non plus « conserver » les données
La DRAM n’est pas à l’abri d’un échec de rétention.Il souffre de plusieurs chemins de fuite :
- Fuite du condensateur
- Tunneling direct
- Fuite sous-seuil et GIDL
- Fuite de jonction
Le changement fondamental dans le stockage
Passé: Stockage = capacité + vitesse, erreurs corrigées avec ECC
Maintenant: Stockage = fiabilité à long terme + cohérence de l'état, le stockage est le fondement de la stabilité du système
Conclusion
La vraie crise à l’ère de l’IA n’est pas l’insuffisance de la puissance de calcul – c’est conservation des données peu fiable.
À mesure que la NAND 3D et la DRAM s'adaptent à des géométries plus petites et à une densité plus élevée, la perte de charge et les fuites s'aggravent.La demande de mémoire persistante de l’IA amplifie ces défauts.
Pour créer des systèmes d’IA stables et de niveau entreprise, l’industrie doit passer de la vitesse et de la capacité à la rétention, au contrôle des charges et à la fiabilité à long terme.
