Wodurch wird das verursacht? pcieport 0000: 00: 03.0: PCIe-Busfehler: AER / Bad TLP

20

Ich sehe Fehlermeldungen wie diese unten:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Diese führen zu Leistungseinbußen, obwohl sie (bisher) behoben wurden. Offensichtlich muss dieses Problem behoben werden. Allerdings kann ich im Internet nicht viel darüber finden. (Vielleicht suche ich an den falschen Stellen.) Ich habe nur ein paar Links gefunden, die ich unten posten werde.

Weiß jemand mehr über diese Fehler?

Handelt es sich um das Motherboard, das Samsung 950 Pro oder die GPU (oder eine Kombination davon)?

Die Hardware ist: Asus X99 Deluxe II Samsung 950 Pro NVMe im M2. Steckplatz auf dem MB (der PCIe-Port 3 teilt). An PCIe-Port 3 ist nichts anderes angeschlossen. Eine GeForce GTX 1070 in PCIe-Steckplatz 1 Core i7 6850K-CPU

Einige der Links, die ich gefunden habe, erwähnen die gleiche Hardware (X99 Deluxe II mb & Samsung950 Pro). Ich verwende Arch Linux.

Ich finde die Zeichenfolge "8086: 6f08" nicht in journalctl oder anderswo, wo ich bisher gesucht habe.

Ungerade Fehlermeldung mit nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: Kämpft Ihre Karte still und leise mit TLP-Neuübertragungen? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 mit fehlerhaften TLP-PCIe-Busfehlern - GeForce-Foren https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

Treiber - PCIe-Fehler im dmesg-Protokoll - Fragen Sie Ubuntu unter /ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99-Hardlock - PCIE-Fehler - NVIDIA Developer Forums https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

MountainX für Monica Cellio
quelle
ich habe mein gtx 710 von dem pcie x16 slot auf einen x1 slot verschoben (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
trants

Antworten:

22

Ich kann zumindest ein paar Details nennen, auch wenn ich nicht vollständig erklären kann, was passiert.

Wie hier beispielsweise beschrieben , kommuniziert die CPU mit dem PCIe-Buscontroller über Transaction Layer Packets (TLPs). Die Hardware erkennt, wenn es fehlerhafte gibt, und der Linux-Kernel meldet dies als Meldungen.

Die Kernel-Option pci=nommconfdeaktiviert Memory-Mapped PCI Configuration Space, der in Linux seit Kernel 2.6 verfügbar ist. Grob gesagt verfügen alle PCI-Geräte über einen Bereich, der dieses Gerät beschreibt (mit dem Sie es sehen lspci -vv). Die ursprüngliche Methode für den Zugriff auf diesen Bereich besteht darin, über E / A-Ports zuzugreifen, während PCIe die Zuordnung dieses Speicherbereichs zum Speicher für einen einfacheren Zugriff ermöglicht.

Dies bedeutet, dass in diesem speziellen Fall ein Fehler auftritt, wenn der PCIe-Controller diese Methode verwendet, um auf den Konfigurationsbereich eines bestimmten Geräts zuzugreifen. Es kann sich um einen Hardware-Fehler im Gerät, im PCIe-Root-Controller auf dem Motherboard, im spezifischen Zusammenspiel dieser beiden oder um etwas anderes handeln.

Mit pci=nommconfwird auf den Konfigurationsbereich aller Geräte auf die ursprüngliche Weise zugegriffen, und das Ändern der Zugriffsmethoden umgeht dieses Problem. Wenn Sie möchten, können Sie das Problem lösen und gleichzeitig unterdrücken.

dirkt
quelle
Kann ich wissen, ob es sich um ein Motherboard-Problem handelt? Oder mein CPU-Problem. Soll ich sie ändern?
user10024395
@ user2675516: Es hängt nicht mit der CPU zusammen. Dies ist ein Problem des PCIe-Root-Controllers (der sich häufig in der Southbridge befindet) und / oder des PCIe-Controllers des Geräts oder deren Interaktion. Ja, wenn Sie das Motherboard gegen ein Motherboard mit anderer Hardware austauschen, wird es normalerweise entfernt.
Dirkt
Ich habe von asus e-ws zu asus deluxe gewechselt, aber das Problem besteht weiterhin. Deshalb vermute ich, dass es die CPU ist. Oder liegt es daran, dass beide X99-Chipsätze sind?
user10024395
1
@ user2675516: Wenn der Chipsatz derselbe ist, esp. der PCIe-Controller, dann ändert sich das Motherboard natürlich nicht weiter. Deshalb habe ich "Motherboard mit unterschiedlicher Hardware " geschrieben.
Dirkt
der gemeinsame Faktor für mich scheint ein Motherboard mit dem X99-Chipsatz zu sein
MountainX für Monica Cellio
3

Versuchen Sie diese Schritte:

  1. cp /etc/default/grub ~/Desktop
  2. Grub bearbeiten. pci=noaerAm Ende von hinzufügen GRUB_CMDLINE_LINUX_DEFAULT. Die Zeile wird wie folgt aussehen:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Jetzt neustarten
Ehtesham
quelle
Ich habe Ihre Lösung angewendet, aber stattdessen pci=noaer, pci=nommconfwie von @dirkt
user3405291 am
Vielen Dank, pci = noaer behoben mein Slackware 14.2x64-Problem auf einem HP-Laptop installiert (Desktop-Installation zeigte dieses Problem überhaupt nicht)
John Forkosh
6
Würde es Ihnen etwas ausmachen, etwas näher darauf einzugehen? Was bewirkt diese Option und wie soll das Problem gelöst werden?
Calimo
Warum würden Sie es einfach nicht sudoeditfür die sichere Bearbeitung verwenden? -1 für diese Kopie hier und da Schritte sind völliger Unsinn
LinuxSecurityFreak
3
pci=noaerDeaktiviert lediglich die erweiterte Fehlerberichterstattung. Sie haben also immer noch diese Fehler, Sie sehen sie einfach nicht ...
23.
2

Durch Hinzufügen der Kernel-Befehlszeilenoption wurde pci=nommconfdas Problem für mich behoben. Daher gehe ich davon aus, dass das Problem mit dem Motherboard zusammenhängt. Das passiert auf allen meinen mit X99-Motherboards ausgestatteten Computern. Dies geschieht nicht auf Z170-Systemen oder anderer Hardware, die ich besitze.

MountainX für Monica Cellio
quelle
1
Hallo, ich stehe auch vor diesem Problem. Kann ich wissen, was pci-nommconf macht? Unterdrückt es nur das Problem oder löst es das Problem?
user10024395
Kann nicht bestätigen - den Fehler auf z170i bekommen, läuft Bogen 4.13.12
sitilge
@sitilge - danke für deinen Kommentar. Welche Marke / Modell z170i? Meine Motherboards sind Asus. Eines ist X99 Deluxe II
MountainX für Monica Cellio
Es ist Asus Z170i Pro Gaming.
Sitilge
2

Ich erhalte die gleichen Fehler (Schlechtes TLP in Verbindung mit Gerät 8086: 6f08). Ich habe X99 Deluxe II, Samsung 960 Pro, Nvidia 1080 Ti. Diese Probleme scheinen mit dem X99-Chipsatz und dem M.2-Gerät wie Samsung Pro verbunden zu sein.

Das X99 Deluxe II-Motherboard teilt die Bandbreite zwischen dem PCIE16_3-Steckplatz und M.2 / U.2. Nach einem Kommentar von @Nic habe ich im BIOS die Onboard Devices Configuration | geändert U.2_2 Bandbreite von Auto bis U.2_2. Dies hat das Problem für mich behoben.

user1759557
quelle
Wie haben Sie festgestellt, dass es sich nur um diesen Chipsatz handelt? Haben Sie jeden anderen Chipsatz ausprobiert? Es tritt auf einer Vielzahl von Hardware auf.
Doug65536
2

Ich habe die PCIE16_3-Steckplatzkonfiguration in Bios auf meinem x99-E so geändert, dass sie statisch auf den x8-Modus eingestellt ist, anstatt automatisch, der standardmäßig für die Unterstützung von M.2-Geräten verwendet wird. Funktioniert jetzt ohne TLP-Fehler auf meinen beiden 1070GTX-Karten, die über PCIe 1x bis 16x-Erweiterungskarten verbunden sind.

Ich habe nicht zuerst Port 16_3 verwendet, bin zum Testen auf diesen Steckplatz umgezogen, hatte aber noch Probleme vor der Änderung des BIOS. Die Einstellung für den Ruhezustand aller Karten wurde in der Miner-Konfiguration auf 30 geändert.

Vor der Änderung hatte ich das Kernel-Protokoll mit Fehlern überfüllt. Auch versucht, das System vor und nach dem Wechsel zu starten. Scheint ziemlich hartnäckig zu sein.

Nic
quelle
2

Suchen Sie in Ihrem Motherboard-Handbuch nach "AER". Sie können die Ursache des Problems beseitigen, indem Sie entweder die spezifische Inkompatibilität beheben oder die VRE insgesamt deaktivieren. Verwenden Sie diese Option nur, wenn es sich bei sämtlichen Fehler-Spam-Nachrichten um korrigierte Fehler handelt. Andernfalls können Sie ein tatsächliches Problem vertuschen.

N3V3N
quelle