Ich erforsche exotische Halbleiter für einen digitalen ASIC mit einigen Millionen Logikgattern, die mit einem Budget von 30 Millionen US-Dollar so schnell wie möglich laufen sollten. (Insbesondere muss ich eine einzelne vollständig parallele 4096-Bit-Multiplikation wiederholt durchführen. Für mehr Kontext erstelle ich einen ASIC, um diese überprüfbare Verzögerungsfunktion zu berechnen .)
Es scheint, dass es Halbleiter gibt, die hinsichtlich der Geschwindigkeit logischer Operationen eine bessere Leistung als Silizium aufweisen, einschließlich Galliumarsenid, Galliumnitrid und Indiumphosphid. Meine Forschung legt nahe, dass diese Halbleiter im Allgemeinen für analoge ASICs im Gegensatz zu digitaler Logik verwendet werden. Daher ist es schwer zu sagen, welche Halbleiter für meinen Anwendungsfall geeignet sind.
Welcher Halbleiter ist für einen digitalen ASIC mit Millionen von Logikgattern (z. B. ~ 20 Millionen Gattern) geeignet und kann die schnellste Leistung in Bezug auf die Geschwindigkeit von Logikgattern liefern?
Änderungen als Antwort auf Kommentare
- Budget : Unser maximales Budget liegt bei zig Millionen Dollar, ~ 30 Millionen Dollar.
- Geschwindigkeit : Um die Geschwindigkeit zu quantifizieren, benötigen wir idealerweise jemanden, der 1 Milliarde US-Dollar ausgibt, um höchstens zweimal schneller als wir zu sein. Beachten Sie, dass die überprüfbare Verzögerungsfunktion (VDF) von Natur aus sequentiell ist, sodass viel Parallelität nicht hilft.
- SiGe-Prozesstechnologie : Ich habe verstanden, dass GaAs in Bezug auf SiGe eine signifikante Geschwindigkeitssteigerung bewirken kann. Wenn 100 nm GaAs schneller als 7 nm SiGe ist, ist die Größe von SiGe nicht relevant. Bei GaAs möchten wir nur die vorhandene Prozesstechnologie verwenden.
- Stifte : Wir brauchen keine große Anzahl von Stiften. Der Grund dafür ist, dass es einen einzelnen 4096-Bit-Eingang und einen einzelnen 4096-Bit-Ausgang pro VDF-Lauf mit 10 Minuten wiederholter Zwischenmultiplikationen über 10 Minuten gibt. Die E / A-Geschwindigkeit ist im Vergleich zur Multiplikationsgeschwindigkeit marginal.
- Stromversorgung und Kühlung : Der ASIC sollte von Personen ohne Stromversorgung und Kühlung betrieben werden können, die wesentlich ausgefeilter sind als eine GPU der Spitzenklasse.
- Grafik - Technologie : Wie ich verstehe, Grafik - Technologie für massiv parallele Berechnungen optimiert. Der von uns gewünschte ASIC muss für die Geschwindigkeit der sequentiellen Berechnung, dh die Latenz, optimiert werden.
- Verschleierung / Reverse Engineering : Der ASIC wird für ein Open-Source-Projekt (nämlich Ethereum) entwickelt. Der ASIC selbst wird ein Open-Source-Schaltungsdesign haben.
- Weitere Informationen : In diesen Folien wird die Verwendung des ASIC für einen Blockchain-Zufallszahlengenerator erläutert.
quelle
Antworten:
Ich wette, Sie wollen keine rohe Geschwindigkeit, sondern Geschwindigkeit pro Dollar und Operationen pro Joule. In diesem Fall ist Silizium-CMOS aufgrund der enormen Investition der 500-Pfund-Gorilla, mit dem Sie gehen sollten.
quelle
Ich stimme der Antwort von Neil_UK zu, dass ein "Standard" -CMOS-Prozess Ihre einzige Wahl ist.
Sicher gibt es Technologien, um die Logik zu beschleunigen. Ich habe einmal einen Frequenzteiler entworfen, bei dem der Eingang mit 30 GHz arbeitete. Bei diesem Entwurf wurden SiGe-NPN-Transistoren verwendet. Bei diesem Design war dieser Frequenzteiler jedoch nur ein sehr kleiner Teil des Chips. Der Stromverbrauch der Schaltung ist so hoch, dass bei einer viel komplexeren digitalen Schaltung mit 30 GHz die Verlustleistung viel zu hoch wäre, was eine praktische Implementierung unmöglich macht.
Mein Punkt ist, dass es immer einen Kompromiss zwischen Geschwindigkeit und Verlustleistung gibt . Da Ihre Schaltung viele Gates benötigt (dies ist ziemlich komplex), ist die Verlustleistung der begrenzende Faktor.
Sie sehen dasselbe in modernen CPUs, diese enthalten viele Kerne. Wenn ein oder nur wenige Kerne verwendet werden, können sie mit einer erhöhten Taktrate laufen. Wenn viele Kerne verwendet werden, wird die Taktrate sofort oder nach einer Weile begrenzt, wenn sich die CPU erwärmt (thermische Drosselung).
Wie bei CPUs können Sie die beste Leistung erzielen, wenn Sie Ihr Design so weit wie möglich parallelisieren. Dies führt zu einer niedrigeren Taktrate auf Schaltungsebene, aber einem höheren Gesamtdurchsatz.
Ich verstehe, dass Parallelisierung nicht das ist, wonach Sie suchen, aber ich persönlich denke, Sie sollten so viel wie möglich über Parallelisierung nachdenken. Selbst wenn Sie versuchen würden, das Problem der Verlustleistung zu umgehen, indem Sie die Schaltung auf mehrere Chips aufteilen, die mit hoher Geschwindigkeit laufen, ist das für mich immer noch eine Parallelisierung. Dann müssten Sie die Datensignale mit gleichen Trace-Längen auf die Chips verteilen, was zu Verzögerungen führt. Das wird eine Herausforderung sein, um es richtig zu machen.
quelle
Dies baut auf den anderen Antworten auf, aber nur auf meinen Gedanken.
Angesichts Ihres Budgets und des Wunsches, mit einem Unternehmen zu konkurrieren, dessen Budget fast das 40-fache Ihres eigenen beträgt, sollten Sie nicht versuchen, Exoten für Ihre Anwendung zu verwenden. Die Hauptkosten beim Entwurf dieses ASIC werden sein:
Menschen. Ich gehe davon aus, dass Sie die Leute dafür bezahlen werden, dass sie in Vollzeit arbeiten, da dies kein Projekt ist, das als Abendprojekt durchgeführt werden kann (ungeachtet von Punkt 2 unten). Sie benötigen HDL-Entwickler, Verifizierungsingenieure und Implementierungsingenieure. All dies sind Fachkenntnisse mit entsprechenden Preisschildern. Insbesondere Implementierungsingenieure für Exoten sind (sehr) mengenmäßig und gefragt (insbesondere wenn sie gut sind). Erwarten Sie keine großen Veränderungen von 1 bis 5 Millionen US-Dollar (je nach Standort) pro Jahr.
EDA-Tools. Diese sind teuer, nur um zu lizenzieren. Sie benötigen auch viele davon und Lizenzen für mehrere Sitzplätze. HDL-Compiler, RTL-Synthesetools, Simulatoren, Layout-Tools usw. Jede Lizenz liegt wahrscheinlich in der Größenordnung von 100.000 USD pro Sitzplatz. Vergessen Sie nicht, dass Sie auch die Rechenleistung und Infrastruktur benötigen, um sie auszuführen. Sie benötigen einen ziemlich leistungsstarken Cluster.
Design. Die meisten Werkzeuge und Prozessdesign-Kits sind angesichts des Volumens und des Umsatzes für diesen Markt für Si ausgereift. Erwarten Sie für Ihre Exoten weniger als ideale Modelle, insbesondere für hochmoderne Prozessknoten. Sie müssen Standardzellen für Ihr exotisches Substrat entwickeln oder kaufen. Es wird viel weniger geben als für Si.
Herstellung. Es gibt exotische Spezialfabriken, aber sie sind genau das: etwas Besonderes. Die Volumina sind gering, die Wafer sind (viel) kleiner und die Kosten sind viel höher (eine grobe Schätzung ist 100-1000X pro mm2 im Vergleich zu Si).
Selbst danach gibt es kaum eine Garantie dafür, dass Sie die Verbesserung erzielen, von der Sie glauben, dass Sie sie nur durch schnelleres Laufen erzielen. Viele sehr kluge Leute haben viel Zeit und Geld in Si investiert, und Sie werden das Rad für viele Dinge neu erfinden (z. B. Standardzellen, Leistungssteuerung usw.) und es wahrscheinlich noch schlimmer machen. Fabs liefern häufig Standardzellen, die für ihren Prozess optimiert sind. Es wäre dumm, dies nicht zu benutzen. Dies wird den Vorteil der Verwendung des Exoten in erster Linie untergraben.
Leider können Sie mit Open Sourcing des Design-Codes den ASIC nicht ohne große andere Investitionen herstellen. Jetzt kann Ihr 1-Milliarden-Dollar-Konkurrent einen Großteil dieser Kosten auf sich nehmen, und selbst wenn Sie die RTL als Open Source-Version anbieten, kann er den Rest der Dinge erledigen, die Sie einfach nicht als Open Source-Lösung anbieten können. Zum Beispiel sind Halbleiterfabriken sehr käfig, wenn es darum geht, ihre internen Prozessmodelle herauszubringen. Sie sollten in diesem Fall eine sehr gründliche Prüfung des Vorteils von Open Sourcing durchführen. Die Herstellung skaliert einfach nicht auf die gleiche Weise wie die Softwareverteilung, daher sind die Vor- und Nachteile sehr unterschiedlich.
So beantworten Sie Ihre Fragen:
Das Budget begrenzt alles (natürlich). Angesichts der Ungleichheit zu Ihrem hypothetischen Konkurrenten würden 30 Millionen US-Dollar viel besser für hochqualifizierte Mitarbeiter ausgegeben, um eine gute Architektur zu entwickeln, als zu versuchen, mit den verwendeten Materialien und Verfahren eine "freie" Leistung zu erzielen. Wie meine obigen Kommentare hoffentlich zeigen, wird diese "kostenlose" Aufführung alles andere als kostenlos sein!
Durch eine gute Architektur wird der Vorteil eines hausinternen Exoten-Designs erheblich gemindert. In GaAs und anderen Exoten besteht noch Skalierungspotential. Dies kann in (naher?) Zukunft relevant werden - halten Sie Ihr Pulver trocken, um dies zu nutzen.
SiGe liegt näher an Si, sodass Sie es möglicherweise freier verwenden können, obwohl es immer noch teurer als Si ist. GaAs ist spezialisierter und wird normalerweise für seine hohe Ft in HF-Designs verwendet, bei denen die Flächenkosten weniger wichtig sind. Wenn Sie von 100 nm auf 10 nm wechseln, erhalten Sie (in erster Ordnung) 100-mal mehr Transistoren, um Ihre hervorragende Architektur zu implementieren. Natürlich skaliert die architektonische Verbesserung normalerweise alsN.t r a n s i s t o r s- -- -- -- -- -- -- -- -√ , also wahrscheinlich um das 10-fache des Leistungsgewinns insgesamt. Bedenken Sie jedoch, dass selbst 1 Mrd. USD bei weitem nicht ausreichen, um einen völlig neuen Prozess durchzusetzen. Daher besteht die Möglichkeit, dass Ihr Konkurrent weiterhin Si verwendet.
SERDES für 4096 Bit ist eine Menge Register - dies kostet viel Strom und Fläche, ohne dass Ihr exotischer Wafer einen Leistungsvorteil bietet. Da Sie ganze Prozessoren in weniger als 4096 Register (geschweige denn 8192) einbauen können, zeigt dies das Problem dort. Die Gegend ist auf Si viel billiger.
Die Verwendung kleinerer Transistoren bedeutet eine höhere Leistungsdichte, weshalb mehr Leistungssteuerung erforderlich ist, dh Bits, die ausgeschaltet sind (dunkles Silizium). Es wurde viel Arbeit in die Analyse und Reduzierung des Stromverbrauchs investiert, während eine akzeptable Leistung beibehalten wurde. Ein kritischer Faktor ist Ihre erwartete Aktivität. Wird es rund um die Uhr Vollgas geben oder wird es regelmäßig sein? Dies wird einen großen Unterschied für Ihr Design machen.
Ein $ 1B-Konkurrent kümmert sich nicht um die Verschleierung, wenn die Belohnung hoch genug ist. Denken Sie nicht, dass Ihr Design die perfekte Implementierung ist.
Zusammenfassend sollten Sie Ihr Geld für die Personen und Tools ausgeben, die Ihre Architektur und Ihren Algorithmus entwickeln (vergessen Sie das nicht!). Dies bietet wahrscheinlich die beste Rendite für Ihr relativ knappes Budget, indem Sie die massiven Investitionen in Tools und Prozesse für Si nutzen. Die einfache Verwendung eines schnelleren Materials führt höchstwahrscheinlich nicht zu einer Verbesserung auf dem Papier, wenn die Taktrate erhöht wird, wenn alle anderen Schritte beim Entwerfen und Erstellen eines ASIC ausgeführt werden.
Persönlich würde ich auf einen "billigen" Si-Knoten (wahrscheinlich 22 oder 28 nm) abzielen, um Ihr Design zum Laufen zu bringen. Wenn dies erfolgreich ist, können Sie die Skalierungsvorteile nutzen, um zu kleineren (und teureren) Knoten zu wechseln und die bereits geleistete Arbeit und die von den Fabriken geleistete Arbeit zu nutzen. In der Zwischenzeit, während Sie einen ASIC entwickeln, können Sie die Betriebsbedingungen im Vergleich zu einer CPU / GPU, die unter einem großen und unbekannten Bereich von Bedingungen arbeiten muss, ebenfalls erweitern. Beispielsweise können Sie die Kühlausrüstung angeben, die verwendet werden soll. Dies wird jeden Vorteil weiter untergraben, indem Materialien mit höherer Leistung verwendet werden.
quelle
Ich habe diese exotischen Materialien auch für unsere PoW-Mining-ASICs der nächsten Generation untersucht, und wie andere angegeben haben, sind sie noch nicht für die Serienproduktion bereit.
Für etwa 20 Millionen US-Dollar erhalten Sie ein Design und Masken bei 7 nm. Dies ist, wie Sie wahrscheinlich wissen, das beste Si-Verfahren, das derzeit für die Serienproduktion verfügbar ist. Es ist allerdings eine große Herausforderung, eine tolle Zeit für 7 nm zu bekommen. Tatsächlich erfordert das Erhalten einer Fab-Zeit für 14 nm oder weniger oft Monate oder Jahre, abhängig vom Prozessknoten und der spezifischen Fab.
Darüber hinaus müssen Fabs ihnen zeigen, dass Sie die finanzielle Fähigkeit haben, eine ausreichend große Wafer-Bestellung durchzuführen, damit sich die Mühe lohnt. Dies führt dazu, dass ein 7-nm-Projekt, einschließlich Wafer, je nach Maskenkosten der Fabrik, Kosten pro Wafer und Mindestanzahl von Wafern zwischen 50 und 100 Millionen US-Dollar einbringt. Dies geschieht vor dem Erstellen der Hardware für die ASICs, wodurch sich die Kosten normalerweise verdoppeln. Dies kann jedoch sehr unterschiedlich sein, basierend auf der Anzahl der in jeder Einheit erforderlichen ASICs, den Leistungsanforderungen, den Kühlanforderungen usw.
Das Obelisk Launchpad- Programm ist für Projekte wie dieses gedacht, die Transparenz und Offenheit erfordern. Tatsächlich erfordert Launchpad, dass das resultierende ASIC-Design Open Source ist. Standardmäßig orientiert sich der Launchpad-Prozess an einem 22-nm-Design, das jedoch leicht in etwas anderes geändert werden kann. Haftungsausschluss: Ich arbeite für Obelisk.
Sie können diesen Blog-Beitrag auch über den Status des Cryptocurrency Mining nützlich finden, um mehr über den ASIC-Herstellungsprozess zu erfahren .
quelle