Que sont les chiplets et pourquoi sont-ils si importants pour l'avenir des processeurs

Bien que les chiplets soient utilisés depuis des décennies, ils ont été utilisés avec parcimonie et à des fins très spécifiques. Aujourd'hui, ils sont à la pointe de la technologie, et des millions de personnes dans le monde les utilisent sur des ordinateurs de bureau, des postes de travail et des serveurs.

Un leader de l'industrie a récemment mis à profit les puces pour retrouver sa position à la pointe de l'innovation et il est clair qu'il ne faudra pas longtemps avant que les puces deviennent la norme dans le monde informatique. Alors, asseyez-vous et découvrez les chiplets et pourquoi ils sont si importants.

Les chiplets sont des processeurs segmentés. Au lieu de consolider chaque pièce en une seule puce (connue sous le nom d'approche monolithique), des sections spécifiques sont fabriquées sous forme de puces séparées. Ces puces individuelles sont ensuite montées ensemble dans un seul boîtier à l'aide d'un système de connexion complexe.

Cette disposition permet de réduire la taille des pièces pouvant bénéficier des dernières méthodes de fabrication, améliorant ainsi l'efficacité du processus et leur permettant d'intégrer davantage de composants.

Les parties de la puce qui ne peuvent pas être réduites de manière significative ou qui ne nécessitent pas de réduction peuvent être produites à l'aide de méthodes plus anciennes et plus économiques.

Bien que le processus de fabrication de tels processeurs soit complexe, le coût global est généralement inférieur. En outre, il offre aux entreprises de transformation une voie plus gérable pour élargir leur gamme de produits.

Pour bien comprendre pourquoi les fabricants de processeurs se sont tournés vers les chiplets, il faut d'abord se plonger dans la fabrication de ces appareils. Les CPU et les GPU commencent leur vie sous la forme de grands disques en silicium ultra-pur, généralement d'un peu moins de 12 pouces (300 mm) de diamètre et de 0,04 pouce (1 mm) d'épaisseur.

Cette plaquette de silicium subit une séquence d'étapes complexes, résultant en plusieurs couches de matériaux différents - isolants, diélectriques et métaux. Les motifs de ces couches sont créés par un processus appelé photolithographie, où la lumière ultraviolette est projetée à travers une version agrandie du motif (un masque), puis rétrécie via des lentilles à la taille requise.

Le motif se répète, à des intervalles définis, sur toute la surface de la plaquette et chacun d'eux deviendra finalement un processeur. Étant donné que les puces sont rectangulaires et que les tranches sont circulaires, les motifs doivent chevaucher le périmètre du disque. Ces parties qui se chevauchent sont finalement jetées car elles ne sont pas fonctionnelles.

Une fois terminée, la plaquette est testée à l'aide d'une sonde appliquée sur chaque puce. Les résultats de l'examen électrique informent les ingénieurs sur la qualité du processeur par rapport à une longue liste de critères. Cette étape initiale, connue sous le nom de chip binning, aide à déterminer la « qualité » du processeur.

Par exemple, si la puce est destinée à être un processeur, chaque pièce doit fonctionner correctement, fonctionnant dans une plage définie de vitesses d'horloge à une tension spécifique. Chaque section de plaquette est ensuite classée en fonction de ces résultats de test.

À la fin, la plaquette est découpée en morceaux individuels, ou "matrices", qui sont utilisables. Ces matrices sont ensuite montées sur un substrat, semblable à une carte mère spécialisée. Le processeur subit un emballage supplémentaire (par exemple, avec un dissipateur de chaleur) avant d'être prêt pour la distribution.

La séquence entière peut prendre des semaines de fabrication et des entreprises telles que TSMC et Samsung facturent des frais élevés pour chaque plaquette, entre 3 000 et 20 000 dollars selon le nœud de processus utilisé.

"Noeud de processus" est le terme utilisé pour décrire l'ensemble du système de fabrication. Historiquement, ils ont été nommés d'après la longueur de grille du transistor. Cependant, à mesure que la technologie de fabrication s'améliorait et permettait des composants de plus en plus petits, la nomenclature ne suivait plus aucun aspect physique de la matrice et il s'agissait désormais simplement d'un outil de marketing.

Néanmoins, chaque nouveau nœud de processus apporte des avantages par rapport à son prédécesseur. Il peut être moins cher à produire, consommer moins d'énergie à la même vitesse d'horloge (ou vice versa) ou avoir une densité plus élevée. Cette dernière métrique mesure le nombre de composants pouvant tenir dans une zone de matrice donnée. Dans le graphique ci-dessous, vous pouvez voir comment cela a évolué au fil des ans pour les GPU (les puces les plus grandes et les plus complexes que vous trouverez dans un PC)...

Les améliorations apportées aux nœuds de processus permettent aux ingénieurs d'augmenter les capacités et les performances de leurs produits, sans avoir à utiliser de puces volumineuses et coûteuses. Cependant, le graphique ci-dessus ne raconte qu'une partie de l'histoire, car tous les aspects d'un processeur ne peuvent pas bénéficier de ces avancées.

Les circuits à l'intérieur des puces peuvent être répartis dans l'une des grandes catégories suivantes :

Malheureusement, alors que les circuits logiques continuent de se réduire à chaque avancée majeure dans la technologie des nœuds de processus, les circuits analogiques ont à peine changé et la SRAM commence également à atteindre une limite.

Alors que la logique constitue toujours la plus grande partie du dé, la quantité de SRAM dans les CPU et GPU d'aujourd'hui a considérablement augmenté ces dernières années. Par exemple, la puce Vega 20 d'AMD utilisée dans sa carte graphique Radeon VII a un total combiné de 5 Mo de cache L1 et L2. À peine deux générations de GPU plus tard, le Navi 21 dispose de plus de 130 Mo de cache assorti, soit 25 fois plus que le Vega 20.

Nous pouvons nous attendre à ce que ces niveaux continuent d'augmenter à mesure que de nouvelles générations de processeurs sont développées, mais la mémoire ne diminuant pas aussi bien que la logique, il deviendra de moins en moins rentable de fabriquer tous les circuits sur le même nœud de processus.

Dans un monde idéal, on concevrait une matrice où les sections analogiques sont fabriquées sur le nœud le plus grand et le moins cher, les pièces SRAM sur un nœud beaucoup plus petit et la logique réservée à la technologie de pointe absolue. Malheureusement, cela n'est pratiquement pas réalisable. Cependant, il existe une approche alternative.

En 1995, Intel a lancé un successeur à son processeur P5 d'origine, le Pentium II. Ce qui le distinguait du tarif habituel à l'époque, c'était que sous le blindage en plastique se trouvait une carte de circuit imprimé abritant deux puces : la puce principale, contenant toute la logique de traitement et les systèmes analogiques, et un ou deux modules SRAM séparés servant de niveau 2 cache.

Intel a fabriqué la puce principale, mais le cache provenait d'autres entreprises. Cela deviendrait assez standard pour les PC de bureau du milieu à la fin des années 1990, jusqu'à ce que les techniques de fabrication de semi-conducteurs s'améliorent au point où la logique, la mémoire et l'analogique pourraient tous être intégrés dans la même puce.

Pentium II d'Intel - CPU au milieu, puces de cache à droite. Source : Wikimédia

Alors qu'Intel a continué à jouer avec plusieurs puces dans le même boîtier, il s'est en grande partie tenu à l'approche dite monolithique des processeurs, c'est-à-dire une puce pour tout. Pour la plupart des processeurs, il n'y avait pas besoin de plus d'une matrice, car les techniques de fabrication étaient suffisamment compétentes (et abordables) pour rester simples.

Cependant, d'autres entreprises étaient plus intéressées par une approche multi-puces, notamment IBM. En 2004, il était possible d'acheter une version à 8 puces du processeur du serveur POWER4 qui comprenait quatre processeurs et quatre modules de cache, tous montés dans le même corps (connu sous le nom de module multi-puces ou approche MCM).

À cette époque, le terme «intégration hétérogène» (HI) a commencé à apparaître, en partie grâce aux travaux de recherche effectués par la DARPA (Defense Advanced Research Project Agency). HI vise à séparer les différentes sections d'un système de traitement, à les fabriquer individuellement sur les nœuds les mieux adaptés à chacune, puis à les combiner dans le même package.

Aujourd'hui, cela est mieux connu sous le nom de système en boîtier (SiP) et a été la méthode standard pour équiper les montres intelligentes de puces depuis leur création. Par exemple, l'Apple Watch de la série 1 abrite un processeur, des mémoires DRAM et NAND Flash, plusieurs contrôleurs et d'autres composants dans une seule structure.

Une radiographie du S1 SiP d'Apple. Source : iFixit

Une configuration similaire peut être obtenue en ayant différents systèmes sur une seule puce (appelée système sur puce ou SoC). Cependant, cette approche ne permet pas de profiter des différents prix des nœuds, et chaque composant ne peut pas non plus être fabriqué de cette façon.

Pour un fournisseur de technologie, utiliser l'intégration hétérogène pour un produit de niche est une chose, mais l'employer pour la majorité de son portefeuille en est une autre. C'est précisément ce qu'AMD a fait avec sa gamme de processeurs. En 2017, le géant des semi-conducteurs a lancé son architecture Zen sous la forme du processeur de bureau monopuce Ryzen. Plusieurs mois plus tard, deux gammes de produits multi-puces, Threadripper et EPYC, ont fait leurs débuts, cette dernière proposant jusqu'à quatre matrices.

Avec le lancement de Zen 2 deux ans plus tard, AMD a pleinement adopté HI, MCM, SiP - appelez-le comme vous voulez. Ils ont déplacé la majorité des systèmes analogiques hors du processeur et les ont placés dans une matrice séparée. Ceux-ci ont été fabriqués sur un nœud de processus plus simple et moins cher, tandis qu'un nœud plus avancé a été utilisé pour la logique et le cache restants.

Et ainsi, les chiplets sont devenus le mot à la mode de choix.

Pour comprendre exactement pourquoi AMD a choisi cette direction, examinons l'image ci-dessous. Il présente deux processeurs de la série Ryzen 5 - le 2600 à gauche, utilisant l'architecture dite Zen +, et le 3600 alimenté par Zen 2 à droite.

Les dissipateurs de chaleur des deux modèles ont été retirés et les photographies ont été prises à l'aide d'une caméra infrarouge. La matrice unique du 2600 abrite huit cœurs, bien que deux d'entre eux soient désactivés pour ce modèle particulier.

Source : Fritzchen Fritz

C'est également le cas pour le 3600, mais ici nous pouvons voir qu'il y a deux matrices dans le boîtier - la matrice complexe de base (CCD) en haut, abritant les cœurs et le cache, et la matrice d'entrée/sortie (IOD) en le bas contenant tous les contrôleurs (pour la mémoire, PCI Express, USB, etc.) et les interfaces physiques.

Étant donné que les deux processeurs Ryzen s'intègrent dans le même socket de carte mère, les deux images sont essentiellement à l'échelle. À première vue, il peut sembler que les deux matrices du 3600 ont une surface combinée plus grande que la puce unique du 2600, mais les apparences peuvent être trompeuses.

Si nous comparons directement les puces contenant les cœurs, il est clair combien d'espace dans l'ancien modèle est occupé par les circuits analogiques - ce sont toutes les couleurs bleu-vert entourant les cœurs et le cache de couleur or. Cependant, dans le Zen 2 CCD, très peu de surface de puce est dédiée aux systèmes analogiques ; il est presque entièrement composé de logique et de SRAM.

La puce Zen+ a une surface de 213 mm² et a été fabriquée par GlobalFoundries en utilisant son nœud de processus de 12 nm. Pour Zen 2, AMD a retenu les services de GlobalFoundries pour l'IOD 125 mm² mais a utilisé le nœud N7 supérieur de TSMC pour le CCD 73 mm².

Zen+ (en haut) vs Zen 2 CCD (en bas)

La zone combinée des puces du nouveau modèle est plus petite et dispose également de deux fois plus de cache L3, prenant en charge une mémoire plus rapide et PCI Express. La meilleure partie de l'approche chiplet, cependant, était que la taille compacte du CCD permettait à AMD d'en installer un autre dans le boîtier. Cette évolution a donné naissance à la série Ryzen 9, proposant des modèles à 12 et 16 cœurs pour les PC de bureau.

Mieux encore, en utilisant deux puces plus petites au lieu d'une grande, chaque plaquette peut potentiellement produire plus de matrices. Dans le cas du Zen 2 CCD, une seule plaquette de 12 pouces (300 mm) peut produire jusqu'à 85 % de matrices en plus que pour le modèle Zen+.

Plus la tranche que l'on retire d'une plaquette est petite, moins il y a de chances de trouver des défauts de fabrication (car ils ont tendance à être répartis de manière aléatoire sur le disque), donc en tenant compte de tout cela, l'approche chiplet a non seulement donné à AMD le capacité à élargir son portefeuille, il l'a fait jusqu'à présent de manière plus rentable - les mêmes CCD peuvent être utilisés dans plusieurs modèles et chaque plaquette en produit des centaines !

Plus la pièce prélevée sur une plaquette est petite, moins on risque de rencontrer des défauts de fabrication (puisqu'ils ont tendance à être répartis de manière aléatoire sur le disque). Ainsi, en tenant compte de tout cela, l'approche chiplet a non seulement permis à AMD d'élargir son portefeuille, mais elle l'a également fait de manière beaucoup plus rentable. Les mêmes CCD peuvent être utilisés dans plusieurs modèles, et chaque wafer en produit des centaines !

Mais si ce choix de conception est si avantageux, pourquoi Intel ne le fait-il pas ? Pourquoi ne le voyons-nous pas être utilisé dans d'autres processeurs, comme les GPU ?

Pour répondre à la première question, Intel adopte en effet la voie complète des puces, et il est sur la bonne voie pour le faire avec sa prochaine architecture de processeur grand public, appelée Meteor Lake. Naturellement, l'approche d'Intel est quelque peu unique, alors explorons en quoi elle diffère de l'approche d'AMD.

En utilisant le terme tuiles au lieu de puces, cette génération de processeurs divisera la conception auparavant monolithique en quatre puces distinctes :

Des connexions à haut débit et à faible latence sont présentes entre le SOC et les trois autres tuiles, et toutes sont connectées à une autre matrice, appelée interposeur. Cet interposeur alimente chaque puce et contient les traces entre elles. L'interposeur et les quatre dalles sont ensuite montés sur une carte supplémentaire pour permettre le conditionnement de l'ensemble.

Contrairement à Intel, AMD n'utilise pas de matrice de montage spéciale, mais possède son propre système de connexion unique, connu sous le nom de Infinity Fabric, pour gérer les transactions de données de puces. La livraison de puissance passe par un package assez standard, et AMD utilise également moins de chiplets. Alors pourquoi la conception d'Intel est-elle en tant que telle ?

L'un des défis de l'approche d'AMD est qu'elle n'est pas très adaptée au secteur ultra-mobile et à faible consommation. C'est pourquoi AMD utilise toujours des processeurs monolithiques pour ce segment. La conception d'Intel leur permet de mélanger et d'assortir différentes tuiles pour répondre à un besoin spécifique. Par exemple, les modèles économiques pour les ordinateurs portables abordables peuvent utiliser des tuiles beaucoup plus petites partout, tandis qu'AMD n'a qu'un seul chiplet de taille pour chaque usage.

L'inconvénient du système d'Intel est qu'il est complexe et coûteux à produire, bien qu'il soit trop tôt pour prédire comment cela affectera les prix de détail. Les deux sociétés de processeurs, cependant, sont pleinement engagées dans le concept de chiplet. Une fois que chaque partie de la chaîne de fabrication est conçue autour d'elle, les coûts devraient diminuer.

En ce qui concerne les GPU, ils contiennent relativement peu de circuits analogiques par rapport au reste de la matrice, mais la quantité de SRAM à l'intérieur augmente régulièrement. C'est pourquoi AMD a appliqué sa connaissance des puces à sa dernière série Radeon 7000, avec les GPU Radeon RX 7900 comprenant plusieurs matrices - une seule grande pour les cœurs et le cache L2, et cinq ou six puces minuscules, chacune contenant une tranche de cache L3. et un contrôleur de mémoire.

En déplaçant ces pièces hors de la matrice principale, les ingénieurs ont pu augmenter considérablement la quantité de logique sans avoir besoin d'utiliser les tout derniers nœuds de processus pour garder la taille des puces sous contrôle. Cependant, le changement n'a pas renforcé l'étendue du portefeuille graphique, bien qu'il ait probablement contribué à améliorer les coûts globaux.

Actuellement, Intel et Nvidia ne montrent aucun signe de suivre l'exemple d'AMD avec leurs conceptions de GPU. Les deux sociétés utilisent TSMC pour toutes les tâches de fabrication et semblent se contenter de produire des puces extrêmement volumineuses, en répercutant le coût sur les consommateurs.

Cependant, avec des revenus dans le secteur graphique en baisse constante, nous pourrions voir tous les fournisseurs de GPU adopter la même voie dans les prochaines années.

Peu importe quand ces changements se produisent, la vérité fondamentale est qu'ils doivent se produire. Malgré les énormes progrès technologiques dans la fabrication des semi-conducteurs, il existe une limite précise à la réduction de chaque composant.

Pour continuer à améliorer les performances des puces, les ingénieurs ont essentiellement deux voies : ajouter plus de logique, avec la mémoire nécessaire pour la prendre en charge, et augmenter les vitesses d'horloge interne. En ce qui concerne ce dernier, le processeur moyen n'a pas changé de manière significative à cet égard depuis des années. Le processeur FX-9590 d'AMD, à partir de 2013, pourrait atteindre 5 GHz dans certaines charges de travail, tandis que la vitesse d'horloge la plus élevée de ses modèles actuels est de 5,7 GHz (avec le Ryzen 9 7950X).

Intel a récemment lancé le Core i9-13900KS, capable d'atteindre 6 GHz dans les bonnes conditions, mais la plupart de ses modèles ont des vitesses d'horloge similaires à celles d'AMD.

Cependant, ce qui a changé, c'est la quantité de circuits et de SRAM. Le FX-9590 susmentionné avait 8 cœurs (et 8 threads) et 8 Mo de cache L3, tandis que le 7950X3D possède 16 cœurs, 32 threads et 128 Mo de cache L3. Les processeurs d'Intel se sont également développés en termes de cœurs et de SRAM.

Le premier GPU shader unifié de Nvidia, le G80 de 2006, se composait de 681 millions de transistors, 128 cœurs et 96 Ko de cache L2 dans une puce mesurant 484 mm2 de surface. Avance rapide jusqu'en 2022, lorsque l'AD102 a été lancé, et il comprend désormais 76,3 milliards de transistors, 18 432 cœurs et 98 304 Ko de cache L2 dans 608 mm2 de surface de matrice.

En 1965, le co-fondateur de Fairchild Semiconductor, Gordon Moore, a observé que dans les premières années de la fabrication de puces, la densité des composants à l'intérieur d'une puce doublait chaque année pour un coût de production minimum fixe. Cette observation est devenue connue sous le nom de loi de Moore et a ensuite été interprétée comme signifiant "le nombre de transistors dans une puce double tous les deux ans", sur la base des tendances de fabrication.

La loi de Moore est restée une représentation raisonnablement précise de la progression de l'industrie des semi-conducteurs pendant près de six décennies. Les énormes gains de logique et de mémoire dans les CPU et les GPU ont été obtenus grâce à des améliorations continues des nœuds de processus, les composants devenant de plus en plus petits au fil des ans.

Cependant, cette tendance ne peut pas durer indéfiniment, quelles que soient les nouvelles technologies.

Au lieu d'attendre que cette limite soit atteinte, des entreprises comme AMD et Intel se sont tournées vers les chiplets, explorant diverses manières de les combiner pour continuer à progresser dans la création de processeurs toujours plus puissants.

Des décennies dans le futur, le PC moyen pourrait abriter des processeurs et des GPU de la taille de votre main, mais retirez le dissipateur de chaleur et vous trouverez une foule de minuscules puces - pas trois ou quatre, mais des dizaines d'entre elles, toutes ingénieusement carrelés et empilés ensemble.

La domination du chiplet ne fait que commencer.

Indice