Kann mir jemand die ungefähre Zeit (in Nanosekunden) geben, um auf L1-, L2- und L3-Caches sowie auf den Hauptspeicher von Intel i7-Prozessoren zuzugreifen?
Obwohl dies keine spezielle Programmierfrage ist, ist es für einige Programmierprobleme mit geringer Latenz erforderlich, diese Art von Geschwindigkeitsdetails zu kennen.
memory
latency
cpu-cache
low-latency
Ted Graham
quelle
quelle
Antworten:
Hier finden Sie ein Handbuch zur Leistungsanalyse für die Prozessoren i7 und Xeon. Ich sollte betonen, dass dies das hat, was Sie brauchen und mehr (siehe beispielsweise Seite 22 für einige Zeitabläufe und Zyklen).
Darüber hinaus enthält diese Seite einige Details zu Taktzyklen usw. Der zweite Link enthielt die folgenden Nummern:
EDIT2
:Das wichtigste ist der Hinweis unter der zitierten Tabelle:
BEARBEITEN: Ich möchte hervorheben, dass das obige Intel-Dokument neben Zeit- / Zyklusinformationen viel mehr (äußerst) nützliche Details der i7- und Xeon-Prozessoren enthält (unter Leistungsgesichtspunkten).
quelle
Zahlen, die jeder kennen sollte
Von: Ursprünglich von Peter Norvig:
- http://norvig.com/21-days.html#answers
- http://surana.wordpress.com/2009/01/01/numbers-everyone-should-know/ ,
- http://sites.google.com/site/io/building-scalable-web-applications-with-google-app-engine
quelle
Kosten für den Zugriff auf verschiedene Speicher auf einer hübschen Seite
Zusammenfassung
Die Werte sind gesunken, haben sich aber seit 2005 stabilisiert
Noch einige Verbesserungen, Prognose für 2020
Siehe auch andere Quellen
Alt, aber immer noch eine ausgezeichnete Erklärung für die Interaktion zwischen Speicherhardware und -software.
Siehe auch
Zum besseren Verständnis empfehle ich die exzellente Präsentation moderner Cache-Architekturen (Juni 2014) von Gerhard Wellein , Hannes Hofmann und Dietmar Fey an der Universität Erlangen-Nürnberg .
Französisch sprechende Menschen mögen einen Artikel von SpaceFox zu schätzen wissen , in dem ein Prozessor mit einem Entwickler verglichen wird, der auf Informationen wartet, die für die weitere Arbeit erforderlich sind.
quelle
[A]
unten angegebenen.Nur um der Überprüfung der Prognosen für 2025 im Jahr 2020 willen:
In den letzten 44 Jahren der integrierten Schaltungstechnologie haben sich die klassischen (Nicht-Quanten-) Prozessoren buchstäblich und physikalisch "Per Aspera ad Astra" entwickelt . Das letzte Jahrzehnt hat gezeigt, dass der klassische Prozess einigen Hürden nahe gekommen ist, die keinen erreichbaren physischen Weg vorwärts haben.
Number of logical cores
kann und kann wachsen, aber nicht mehr als schwer, wenn nicht unmöglich, die bereits getroffene physikbasierte Decke zu umgehen, kann und kann wachsen, aber weniger als (Leistung, Rauschen, "Uhr") kann wachsen, aber Probleme mit der Energieverteilung und Wärmeableitung Der Anstieg wird möglicherweise zunehmen und hat direkte Vorteile durch große Cache-Footprints und schnellere und umfassendere Speicher-E / A sowie indirekte Vorteile durch weniger häufig erzwungene Systemumschaltungen, da wir mehr Kerne haben können, um andere Threads / Prozesse aufzuteilenO(n^2~3)
Frequency [MHz]
Transistor Count
O(n^2~3)
Power [W]
Single Thread Perf
(Credits gehen an Leonardo Suriano & Karl Rupp)
Nur um die Überprüfung der Prognosen für 2020 im Jahr 2015 zu überprüfen:
Nur zum Vergleich der CPU- und GPU-Latenzlandschaft:
Es ist keine leichte Aufgabe, selbst die einfachsten CPU- / Cache- / DRAM-Aufstellungen (selbst in einem einheitlichen Speicherzugriffsmodell) zu vergleichen, bei denen die DRAM-Geschwindigkeit ein Faktor für die Bestimmung der Latenz ist, und die geladene Latenz (gesättigtes System), bei der letztere regiert und gilt Etwas, das die Unternehmensanwendungen mehr als ein vollständig entladenes System im Leerlauf erleben werden.
GPU-Engines haben viel technisches Marketing erhalten, während tiefe interne Abhängigkeiten der Schlüssel sind, um sowohl die wirklichen Stärken als auch die wirklichen Schwächen zu verstehen, die diese Architekturen in der Praxis erfahren (in der Regel ganz anders als die Erwartungen des aggressiven Marketings).
Das Verständnis von Internalitäten ist daher viel wichtiger als in anderen Bereichen, in denen Architekturen veröffentlicht werden und zahlreiche Benchmarks frei verfügbar sind. Vielen Dank an die GPU-Mikrotester, die ihre Zeit und Kreativität aufgewendet haben, um die Wahrheit über die tatsächlichen Arbeitsschemata im Black-Box-Ansatz der getesteten GPU-Geräte zu erfahren.
Ich entschuldige mich für ein "größeres Bild", aber die Latenz-Demaskierung hat auch grundlegende Grenzen, die sich aus den smREG / L1 / L2-Kapazitäten auf dem Chip und den Treffer- / Fehlerraten ergeben.
Das Endergebnis?
Jedes Design mit geringer Latenzzeit muss die "E / A-Hydraulik" (da 0 1-XFERs von Natur aus inkompressibel sind) eher rückentwickeln, und die daraus resultierenden Latenzen bestimmen den Leistungsumfang für jede GPGPU-Lösung, sei es rechenintensiv ( Lesen) : Wo Verarbeitungskosten etwas mehr XFERs mit schlechter Latenz verzeihen ...) oder nicht ( lesen Sie : Wo (könnte zu einer Überraschung sein) CPUs in der End-to-End-Verarbeitung schneller sind als GPU-Fabrics [Zitate verfügbar] ).
quelle
Schauen Sie sich dieses "Treppenhaus" -Diagramm an, das die verschiedenen Zugriffszeiten (in Bezug auf die Uhrzeit) perfekt darstellt. Beachten Sie, dass die rote CPU einen zusätzlichen "Schritt" hat, wahrscheinlich weil sie L4 hat (während andere dies nicht tun).
Entnommen aus diesem Extremetech-Artikel.
In der Informatik wird dies als "E / A-Komplexität" bezeichnet.
quelle