Exotische Halbleiter für schnellen digitalen ASIC

7

Ich erforsche exotische Halbleiter für einen digitalen ASIC mit einigen Millionen Logikgattern, die mit einem Budget von 30 Millionen US-Dollar so schnell wie möglich laufen sollten. (Insbesondere muss ich eine einzelne vollständig parallele 4096-Bit-Multiplikation wiederholt durchführen. Für mehr Kontext erstelle ich einen ASIC, um diese überprüfbare Verzögerungsfunktion zu berechnen .)

Es scheint, dass es Halbleiter gibt, die hinsichtlich der Geschwindigkeit logischer Operationen eine bessere Leistung als Silizium aufweisen, einschließlich Galliumarsenid, Galliumnitrid und Indiumphosphid. Meine Forschung legt nahe, dass diese Halbleiter im Allgemeinen für analoge ASICs im Gegensatz zu digitaler Logik verwendet werden. Daher ist es schwer zu sagen, welche Halbleiter für meinen Anwendungsfall geeignet sind.

Welcher Halbleiter ist für einen digitalen ASIC mit Millionen von Logikgattern (z. B. ~ 20 Millionen Gattern) geeignet und kann die schnellste Leistung in Bezug auf die Geschwindigkeit von Logikgattern liefern?

Änderungen als Antwort auf Kommentare

  • Budget : Unser maximales Budget liegt bei zig Millionen Dollar, ~ 30 Millionen Dollar.
  • Geschwindigkeit : Um die Geschwindigkeit zu quantifizieren, benötigen wir idealerweise jemanden, der 1 Milliarde US-Dollar ausgibt, um höchstens zweimal schneller als wir zu sein. Beachten Sie, dass die überprüfbare Verzögerungsfunktion (VDF) von Natur aus sequentiell ist, sodass viel Parallelität nicht hilft.
  • SiGe-Prozesstechnologie : Ich habe verstanden, dass GaAs in Bezug auf SiGe eine signifikante Geschwindigkeitssteigerung bewirken kann. Wenn 100 nm GaAs schneller als 7 nm SiGe ist, ist die Größe von SiGe nicht relevant. Bei GaAs möchten wir nur die vorhandene Prozesstechnologie verwenden.
  • Stifte : Wir brauchen keine große Anzahl von Stiften. Der Grund dafür ist, dass es einen einzelnen 4096-Bit-Eingang und einen einzelnen 4096-Bit-Ausgang pro VDF-Lauf mit 10 Minuten wiederholter Zwischenmultiplikationen über 10 Minuten gibt. Die E / A-Geschwindigkeit ist im Vergleich zur Multiplikationsgeschwindigkeit marginal.
  • Stromversorgung und Kühlung : Der ASIC sollte von Personen ohne Stromversorgung und Kühlung betrieben werden können, die wesentlich ausgefeilter sind als eine GPU der Spitzenklasse.
  • Grafik - Technologie : Wie ich verstehe, Grafik - Technologie für massiv parallele Berechnungen optimiert. Der von uns gewünschte ASIC muss für die Geschwindigkeit der sequentiellen Berechnung, dh die Latenz, optimiert werden.
  • Verschleierung / Reverse Engineering : Der ASIC wird für ein Open-Source-Projekt (nämlich Ethereum) entwickelt. Der ASIC selbst wird ein Open-Source-Schaltungsdesign haben.
  • Weitere Informationen : In diesen Folien wird die Verwendung des ASIC für einen Blockchain-Zufallszahlengenerator erläutert.
Zufälliges Blau
quelle
3
Es kommt hauptsächlich auf zwei Dinge an: Wie schnell müssen Sie es takten? (Muss es mit 1 GHz laufen? 10 GHz, 100?) und wie viel möchten Sie ausgeben? SiGe kann selbst mit einer halben Milliarde Gates ziemlich leicht 5 GHz erreichen (der PC-CPU-Übertaktungsrekord liegt bei fast 9 GHz), und Leute wie Inphy stellen CMOS-Chips her, die 28 GHz erreichen können (da 56 Gbit PAM4 eine Bandbreite von 28 GHz verwendet) . Also ... wie viel Geschwindigkeit brauchst du wirklich, wirklich?
Sam
3
Bitte sagen Sie nicht "so schnell wie möglich" ... das ist als technische Spezifikation absolut bedeutungslos. Wie viele Gigawatt hast du? Wie viele Megadollar haben Sie? Haben Sie untersucht, welche Technologien von den Grafikprozessoren verwendet werden, da sie sich anscheinend in Ihrem Stadion befinden?
Elliot Alderson
2
Gute Bearbeitungen. Sie erwähnen, dass eine Ausgabe von 1 Gigadollar durch einen Konkurrenten Ihre Leistung im Idealfall nur verdoppeln sollte. Was ist die Basis für diese Hoffnung / Einschätzung? Gibt es einen Grund, warum dies besorgniserregender wäre, als wenn jemand seine eigenen 30 Megadollar für einen gleichwertigen ASIC ausgibt oder sogar weniger, um mit einem Gerät mit nur einem Lauf zu emulieren?
KH
1
Ein Teil des Punktes besteht offensichtlich darin, den Nutzen zusätzlicher Kerne zu verringern, wenn versucht wird, die Berechnung rechtzeitig abzuschließen. Sie sollten jedoch auch bewerten, was Sie in einen ASIC einbauen können, dessen Emulation auf der FPGA-Architektur, dh einer Gate-Struktur, schwierig oder mühsam wäre dass von Natur aus eine große Menge des FPGA verschwendet wird oder dass mehr Schichten von Bussen oder Verbindungen erforderlich sind, eine kritische Komponente, als unterstützt werden. Zwingen Sie Ihren Gegner in eigene ASICs, um sicherzustellen, dass seine Ausgaben (einschließlich Reverse Engineering) hoffentlich Ihre eigenen übersteigen.
KH
1
@Randomblue Das macht Sinn. Ein Blockchain-Zufallszahlengenerator ist das, was ich von Ihren Folien lese. Ich denke, um Ihre Blockchain anzugreifen, muss ein Angreifer eine deutliche Outperformance erzielen und nicht nur zu Ihnen passen. Insbesondere weil Ihre Anwendung von der Taktrate abhängig ist, sollten Sie die Kühlung von Flüssigkeiten und / oder Unterumgebungen in Betracht ziehen. Schieben Sie Ihren Asic in dem Szenario, in dem Sie eine CPU übertakten würden, an seine Geschwindigkeitsgrenzen. Es würde sich wahrscheinlich zumindest lohnen, einen Ihrer Asics auf diese Weise zu testen, sobald Sie ihn erstellt haben, nur um sicherzugehen.
KH

Antworten:

4

Ich wette, Sie wollen keine rohe Geschwindigkeit, sondern Geschwindigkeit pro Dollar und Operationen pro Joule. In diesem Fall ist Silizium-CMOS aufgrund der enormen Investition der 500-Pfund-Gorilla, mit dem Sie gehen sollten.

Neil_UK
quelle
4

Ich stimme der Antwort von Neil_UK zu, dass ein "Standard" -CMOS-Prozess Ihre einzige Wahl ist.

Sicher gibt es Technologien, um die Logik zu beschleunigen. Ich habe einmal einen Frequenzteiler entworfen, bei dem der Eingang mit 30 GHz arbeitete. Bei diesem Entwurf wurden SiGe-NPN-Transistoren verwendet. Bei diesem Design war dieser Frequenzteiler jedoch nur ein sehr kleiner Teil des Chips. Der Stromverbrauch der Schaltung ist so hoch, dass bei einer viel komplexeren digitalen Schaltung mit 30 GHz die Verlustleistung viel zu hoch wäre, was eine praktische Implementierung unmöglich macht.

Mein Punkt ist, dass es immer einen Kompromiss zwischen Geschwindigkeit und Verlustleistung gibt . Da Ihre Schaltung viele Gates benötigt (dies ist ziemlich komplex), ist die Verlustleistung der begrenzende Faktor.

Sie sehen dasselbe in modernen CPUs, diese enthalten viele Kerne. Wenn ein oder nur wenige Kerne verwendet werden, können sie mit einer erhöhten Taktrate laufen. Wenn viele Kerne verwendet werden, wird die Taktrate sofort oder nach einer Weile begrenzt, wenn sich die CPU erwärmt (thermische Drosselung).

Wie bei CPUs können Sie die beste Leistung erzielen, wenn Sie Ihr Design so weit wie möglich parallelisieren. Dies führt zu einer niedrigeren Taktrate auf Schaltungsebene, aber einem höheren Gesamtdurchsatz.

Ich verstehe, dass Parallelisierung nicht das ist, wonach Sie suchen, aber ich persönlich denke, Sie sollten so viel wie möglich über Parallelisierung nachdenken. Selbst wenn Sie versuchen würden, das Problem der Verlustleistung zu umgehen, indem Sie die Schaltung auf mehrere Chips aufteilen, die mit hoher Geschwindigkeit laufen, ist das für mich immer noch eine Parallelisierung. Dann müssten Sie die Datensignale mit gleichen Trace-Längen auf die Chips verteilen, was zu Verzögerungen führt. Das wird eine Herausforderung sein, um es richtig zu machen.

Bimpelrekkie
quelle
Der Algorithmus ist so konzipiert, dass er "inhärent sequentiell" ist, sodass Parallelität nicht über einen bestimmten Punkt hinaus hilft. Wie viele Gates hatte Ihr 30-GHz-Frequenzteiler und wie viel Strom verbrauchte er?
Randomblue
Denken Sie in der Größenordnung von weniger als 100 Gates, wobei nur etwa 10 bei 30 GHz, 10 bei 10 GHz usw. laufen. Der Gesamtstromverbrauch betrug etwa 400 mW. Das war nicht die schnellste SiGe-Technologie, daher gibt es Raum für Verbesserungen. Auf jeden Fall ist es auch möglich, CMOS mit 30 GHz oder höher laufen zu lassen. Andererseits nur für kleine Stromkreise, da der Stromverbrauch der begrenzende Faktor ist.
Bimpelrekkie
1
Hinzu kommt, dass VLSI wirklich nur auf Si durchgeführt wird. Die meisten Exoten werden für Anwendungen mit sehr hohem Wert und geringem Volumen (im Vergleich zu Si) verwendet. Die EDA-Tools, -Prozesse usw. sind nicht so raffiniert wie bei Si und viel teurer. Wenn Sie nach 20-Millionen-Toren suchen, ist Si angesichts Ihres Budgets die einzige praktische Option (vergessen Sie nicht, dass ein Großteil dieses Geldes für Design und Verifizierung aufgewendet wird ...).
Awjlogan
1
Ich stimme @awjlogan zu, dass praktisch alle digitalen Entwurfsabläufe (Verilog / VHDL => RTL => Layout) für CMOS-Prozesse bestimmt sind. Dies bedeutet nicht, dass es nicht für esoterische Prozesse durchgeführt werden kann, aber dies kostet Sie viel (wo) Personal, da Zellbibliotheken erstellt werden müssen. Das Design kann auch manuell erstellt werden, dies erfordert jedoch auch mehr Aufwand.
Bimpelrekkie
4

Dies baut auf den anderen Antworten auf, aber nur auf meinen Gedanken.

Angesichts Ihres Budgets und des Wunsches, mit einem Unternehmen zu konkurrieren, dessen Budget fast das 40-fache Ihres eigenen beträgt, sollten Sie nicht versuchen, Exoten für Ihre Anwendung zu verwenden. Die Hauptkosten beim Entwurf dieses ASIC werden sein:

  • Menschen. Ich gehe davon aus, dass Sie die Leute dafür bezahlen werden, dass sie in Vollzeit arbeiten, da dies kein Projekt ist, das als Abendprojekt durchgeführt werden kann (ungeachtet von Punkt 2 unten). Sie benötigen HDL-Entwickler, Verifizierungsingenieure und Implementierungsingenieure. All dies sind Fachkenntnisse mit entsprechenden Preisschildern. Insbesondere Implementierungsingenieure für Exoten sind (sehr) mengenmäßig und gefragt (insbesondere wenn sie gut sind). Erwarten Sie keine großen Veränderungen von 1 bis 5 Millionen US-Dollar (je nach Standort) pro Jahr.

  • EDA-Tools. Diese sind teuer, nur um zu lizenzieren. Sie benötigen auch viele davon und Lizenzen für mehrere Sitzplätze. HDL-Compiler, RTL-Synthesetools, Simulatoren, Layout-Tools usw. Jede Lizenz liegt wahrscheinlich in der Größenordnung von 100.000 USD pro Sitzplatz. Vergessen Sie nicht, dass Sie auch die Rechenleistung und Infrastruktur benötigen, um sie auszuführen. Sie benötigen einen ziemlich leistungsstarken Cluster.

  • Design. Die meisten Werkzeuge und Prozessdesign-Kits sind angesichts des Volumens und des Umsatzes für diesen Markt für Si ausgereift. Erwarten Sie für Ihre Exoten weniger als ideale Modelle, insbesondere für hochmoderne Prozessknoten. Sie müssen Standardzellen für Ihr exotisches Substrat entwickeln oder kaufen. Es wird viel weniger geben als für Si.

  • Herstellung. Es gibt exotische Spezialfabriken, aber sie sind genau das: etwas Besonderes. Die Volumina sind gering, die Wafer sind (viel) kleiner und die Kosten sind viel höher (eine grobe Schätzung ist 100-1000X pro mm2 im Vergleich zu Si).

Selbst danach gibt es kaum eine Garantie dafür, dass Sie die Verbesserung erzielen, von der Sie glauben, dass Sie sie nur durch schnelleres Laufen erzielen. Viele sehr kluge Leute haben viel Zeit und Geld in Si investiert, und Sie werden das Rad für viele Dinge neu erfinden (z. B. Standardzellen, Leistungssteuerung usw.) und es wahrscheinlich noch schlimmer machen. Fabs liefern häufig Standardzellen, die für ihren Prozess optimiert sind. Es wäre dumm, dies nicht zu benutzen. Dies wird den Vorteil der Verwendung des Exoten in erster Linie untergraben.

Leider können Sie mit Open Sourcing des Design-Codes den ASIC nicht ohne große andere Investitionen herstellen. Jetzt kann Ihr 1-Milliarden-Dollar-Konkurrent einen Großteil dieser Kosten auf sich nehmen, und selbst wenn Sie die RTL als Open Source-Version anbieten, kann er den Rest der Dinge erledigen, die Sie einfach nicht als Open Source-Lösung anbieten können. Zum Beispiel sind Halbleiterfabriken sehr käfig, wenn es darum geht, ihre internen Prozessmodelle herauszubringen. Sie sollten in diesem Fall eine sehr gründliche Prüfung des Vorteils von Open Sourcing durchführen. Die Herstellung skaliert einfach nicht auf die gleiche Weise wie die Softwareverteilung, daher sind die Vor- und Nachteile sehr unterschiedlich.

So beantworten Sie Ihre Fragen:

  1. Das Budget begrenzt alles (natürlich). Angesichts der Ungleichheit zu Ihrem hypothetischen Konkurrenten würden 30 Millionen US-Dollar viel besser für hochqualifizierte Mitarbeiter ausgegeben, um eine gute Architektur zu entwickeln, als zu versuchen, mit den verwendeten Materialien und Verfahren eine "freie" Leistung zu erzielen. Wie meine obigen Kommentare hoffentlich zeigen, wird diese "kostenlose" Aufführung alles andere als kostenlos sein!

  2. Durch eine gute Architektur wird der Vorteil eines hausinternen Exoten-Designs erheblich gemindert. In GaAs und anderen Exoten besteht noch Skalierungspotential. Dies kann in (naher?) Zukunft relevant werden - halten Sie Ihr Pulver trocken, um dies zu nutzen.

  3. SiGe liegt näher an Si, sodass Sie es möglicherweise freier verwenden können, obwohl es immer noch teurer als Si ist. GaAs ist spezialisierter und wird normalerweise für seine hohe Ft in HF-Designs verwendet, bei denen die Flächenkosten weniger wichtig sind. Wenn Sie von 100 nm auf 10 nm wechseln, erhalten Sie (in erster Ordnung) 100-mal mehr Transistoren, um Ihre hervorragende Architektur zu implementieren. Natürlich skaliert die architektonische Verbesserung normalerweise alsN.treinnsichstÖrs, also wahrscheinlich um das 10-fache des Leistungsgewinns insgesamt. Bedenken Sie jedoch, dass selbst 1 Mrd. USD bei weitem nicht ausreichen, um einen völlig neuen Prozess durchzusetzen. Daher besteht die Möglichkeit, dass Ihr Konkurrent weiterhin Si verwendet.

  4. SERDES für 4096 Bit ist eine Menge Register - dies kostet viel Strom und Fläche, ohne dass Ihr exotischer Wafer einen Leistungsvorteil bietet. Da Sie ganze Prozessoren in weniger als 4096 Register (geschweige denn 8192) einbauen können, zeigt dies das Problem dort. Die Gegend ist auf Si viel billiger.

  5. Die Verwendung kleinerer Transistoren bedeutet eine höhere Leistungsdichte, weshalb mehr Leistungssteuerung erforderlich ist, dh Bits, die ausgeschaltet sind (dunkles Silizium). Es wurde viel Arbeit in die Analyse und Reduzierung des Stromverbrauchs investiert, während eine akzeptable Leistung beibehalten wurde. Ein kritischer Faktor ist Ihre erwartete Aktivität. Wird es rund um die Uhr Vollgas geben oder wird es regelmäßig sein? Dies wird einen großen Unterschied für Ihr Design machen.

  6. Ein $ 1B-Konkurrent kümmert sich nicht um die Verschleierung, wenn die Belohnung hoch genug ist. Denken Sie nicht, dass Ihr Design die perfekte Implementierung ist.

Zusammenfassend sollten Sie Ihr Geld für die Personen und Tools ausgeben, die Ihre Architektur und Ihren Algorithmus entwickeln (vergessen Sie das nicht!). Dies bietet wahrscheinlich die beste Rendite für Ihr relativ knappes Budget, indem Sie die massiven Investitionen in Tools und Prozesse für Si nutzen. Die einfache Verwendung eines schnelleren Materials führt höchstwahrscheinlich nicht zu einer Verbesserung auf dem Papier, wenn die Taktrate erhöht wird, wenn alle anderen Schritte beim Entwerfen und Erstellen eines ASIC ausgeführt werden.

Persönlich würde ich auf einen "billigen" Si-Knoten (wahrscheinlich 22 oder 28 nm) abzielen, um Ihr Design zum Laufen zu bringen. Wenn dies erfolgreich ist, können Sie die Skalierungsvorteile nutzen, um zu kleineren (und teureren) Knoten zu wechseln und die bereits geleistete Arbeit und die von den Fabriken geleistete Arbeit zu nutzen. In der Zwischenzeit, während Sie einen ASIC entwickeln, können Sie die Betriebsbedingungen im Vergleich zu einer CPU / GPU, die unter einem großen und unbekannten Bereich von Bedingungen arbeiten muss, ebenfalls erweitern. Beispielsweise können Sie die Kühlausrüstung angeben, die verwendet werden soll. Dies wird jeden Vorteil weiter untergraben, indem Materialien mit höherer Leistung verwendet werden.

awjlogan
quelle
Vielen Dank für diese ausführliche Antwort :) Würden Sie zustimmen, dass SiGe der weniger exotische Nicht-Si-Halbleiter ist und dass SiGe wahrscheinlich im Bereich unseres Budgets liegt? Haben Sie eine Vorstellung davon, ob 90-nm-SiGe besser oder schlechter als 22-nm-SiGe ist? Was ist mit 7nm Si?
Randomblue
@Randomblue Es ist sehr schwer zu sagen, da ein 22-nm-Si-FET nicht nur ein 90-nm-Si-FET ist, der um das 10-fache geschrumpft ist. Es gibt eine Menge Materialtechnik (einschließlich SiGe-Kanäle!) Und Festkörperphysik. Eine Schwierigkeit beim Erreichen von 7 nm ist die Leistungsdichte; nicht gut für Vollzeit-Vollladung (gerne Antwort erweitern). SiGe mag in Ihrem Fertigungsbudget enthalten sein, aber mit den Faktoren in meinen Antworten würde es meiner Meinung nach außerhalb Ihres Gesamtbudgets liegen, wenn man bedenkt, wie viel billiger / ausgereiftes Si-CMOS ist und wie viele Gewinne Sie anderswo erzielen können.
Awjlogan
1

Ich habe diese exotischen Materialien auch für unsere PoW-Mining-ASICs der nächsten Generation untersucht, und wie andere angegeben haben, sind sie noch nicht für die Serienproduktion bereit.

Für etwa 20 Millionen US-Dollar erhalten Sie ein Design und Masken bei 7 nm. Dies ist, wie Sie wahrscheinlich wissen, das beste Si-Verfahren, das derzeit für die Serienproduktion verfügbar ist. Es ist allerdings eine große Herausforderung, eine tolle Zeit für 7 nm zu bekommen. Tatsächlich erfordert das Erhalten einer Fab-Zeit für 14 nm oder weniger oft Monate oder Jahre, abhängig vom Prozessknoten und der spezifischen Fab.

Darüber hinaus müssen Fabs ihnen zeigen, dass Sie die finanzielle Fähigkeit haben, eine ausreichend große Wafer-Bestellung durchzuführen, damit sich die Mühe lohnt. Dies führt dazu, dass ein 7-nm-Projekt, einschließlich Wafer, je nach Maskenkosten der Fabrik, Kosten pro Wafer und Mindestanzahl von Wafern zwischen 50 und 100 Millionen US-Dollar einbringt. Dies geschieht vor dem Erstellen der Hardware für die ASICs, wodurch sich die Kosten normalerweise verdoppeln. Dies kann jedoch sehr unterschiedlich sein, basierend auf der Anzahl der in jeder Einheit erforderlichen ASICs, den Leistungsanforderungen, den Kühlanforderungen usw.

Das Obelisk Launchpad- Programm ist für Projekte wie dieses gedacht, die Transparenz und Offenheit erfordern. Tatsächlich erfordert Launchpad, dass das resultierende ASIC-Design Open Source ist. Standardmäßig orientiert sich der Launchpad-Prozess an einem 22-nm-Design, das jedoch leicht in etwas anderes geändert werden kann. Haftungsausschluss: Ich arbeite für Obelisk.

Sie können diesen Blog-Beitrag auch über den Status des Cryptocurrency Mining nützlich finden, um mehr über den ASIC-Herstellungsprozess zu erfahren .

Obelisk Ken
quelle