Ich fürchte, es wird nie eine Faustregel geben!
Die Gründe sind vielfältig, vor allem, dass sowohl die Systeme, die Sie in Betracht ziehen, als auch die Probleme, die Sie lösen möchten, in einem sehr großen Bereich variieren.
Problembasierte Aspekte
Sie sagen, Sie möchten eine FFT durchführen - aber das ist immer nur die Hälfte dessen, was Sie tatsächlich tun möchten!
Muss die FFT in abs² konvertiert, dann Farben zugeordnet und dann auf einem Bildschirm angezeigt werden? Tun Sie es in der GPU, es ist genau dort, wo es hingehört; fosphor macht das mit einfachen 200MS / s auf fähigen PC / GPU-Kombinationen:
In diesem Fall spielt die Größe der FFT keine Rolle. Ihre Daten werden von der GPU weiterverarbeitet, also die FFT dort.
Auf der anderen Seite möchten Sie vielleicht etwas tun, das von vielen Überprüfungen einzelner Elemente in der FFT in der CPU abhängt? Möglicherweise nur eine FFT und dann nicht mehr viele?
In diesem Fall hilft Ihnen Ihr theoretischer Durchsatz überhaupt nicht. Warten Sie nur darauf, dass die Daten aus Ihrem CPU-Cache zurück in den kohärenten Speicher gelangen, damit sie an die GPU weitergeleitet werden können, wo Sie dann eine FFT initiieren (möglicherweise verschwenden Sie unterwegs einen Interrupt- / Kontextwechsel) Warten Sie, bis es fertig ist. Die GPU hat die Daten per DMA in Ihren Hauptspeicher zurückgesendet und Sie haben sie in den Cache Ihrer CPU geladen. Dies zahlt sich selbst für mittelgroße FFTs nicht aus.
Also: Dieses ganze "Geschäft mit mathematischen Beschleunigern mit hoher Latenz" zahlt sich wirklich nur dann aus, wenn Sie während des Wartens etwas Vernünftiges tun können. Wenn Sie nicht können, gibt es eine große Latenzstrafe.
Systembasierte Aspekte
Ok, ich gehe hier nicht zu sehr ins Detail, aber:
- DSP-Systeme sind entweder CPU- oder Speicherbandbreitenbeschränkt
- Wenn Ihr GPU-Betrieb bei der CPU-Begrenzung hilft, aber die Speicherschnittstelle zusätzlich belastet, während der Rest Ihres Systems nur über eine begrenzte Speicherbandbreite verfügt, verletzen Sie sich selbst.
- Gleiches gilt umgekehrt: Möglicherweise ist Ihr Algorithmus (die FFT in Ihrer spezifischen Größe) CPU-begrenzt, aber Ihre GPU-Beschleunigung führt zu zusätzlichen Interrupts
- Was ist eine FFT-Größe, die Ihre CPU sehr gut kann? Dies wird wahrscheinlich durch die Größe der L1- und L2-Caches definiert. Eine Xeon-CPU mit Zahlenverarbeitung verfügt über Dutzende von Megabyte davon, ein ARM, der in einem Jetson NVidia SoC ausgeführt wird, dagegen nicht.
- Welche FFT-Größe hat Ihre Grafikkarte? Die Anzahl der parallelen Threads, ihre Flexibilität und die Speicherbandbreite zwischen den Karten unterscheiden sich erheblich.
- Was ist überhaupt eine Metrik für "gut"? Nur ein seltsames Verhältnis von Durchsatz und Latenz, aber vielleicht auch Energie und die Möglichkeit, die richtigen Ressourcen für andere Arbeiten frei zu lassen?
- Was ist Ihre CPU <-> Hauptspeicherschnittstelle? Handelt es sich um eine Vierkanal-DDR4-Schnittstelle mit fast 2 GHz oder um eine Einkanal-DDR?
- Was ist Ihre GPU <-> GPU-Speicherschnittstelle?
- Was ist Ihre GPU <-> Hauptspeicherschnittstelle?
- Wie gut funktioniert Ihre CPU <-> GPU-Kommunikation für Ihren speziellen Anwendungsfall?
- Ist beispielsweise der PCIe-Bus stark belastet, weil derselbe PCIe-Switch die Daten verarbeiten muss, die in Ihr Hochgeschwindigkeitssystem und aus diesem heraus fließen (z. B. Speicher, aber wahrscheinlicher 10-Gigabit-Ethernet- oder Videodaten)? ?
Die Antwort wird wahrscheinlich nicht zufriedenstellend sein, aber es ist wirklich:
Irgendwo über 64 Bins, irgendwo unter 2 20 Bins für eine FFT mit einfacher Genauigkeit. Es hängt davon ab, ob.