Ich sehe Fehlermeldungen wie diese unten:
Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer,
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0:
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP
Diese führen zu Leistungseinbußen, obwohl sie (bisher) behoben wurden. Offensichtlich muss dieses Problem behoben werden. Allerdings kann ich im Internet nicht viel darüber finden. (Vielleicht suche ich an den falschen Stellen.) Ich habe nur ein paar Links gefunden, die ich unten posten werde.
Weiß jemand mehr über diese Fehler?
Handelt es sich um das Motherboard, das Samsung 950 Pro oder die GPU (oder eine Kombination davon)?
Die Hardware ist: Asus X99 Deluxe II Samsung 950 Pro NVMe im M2. Steckplatz auf dem MB (der PCIe-Port 3 teilt). An PCIe-Port 3 ist nichts anderes angeschlossen. Eine GeForce GTX 1070 in PCIe-Steckplatz 1 Core i7 6850K-CPU
Einige der Links, die ich gefunden habe, erwähnen die gleiche Hardware (X99 Deluxe II mb & Samsung950 Pro). Ich verwende Arch Linux.
Ich finde die Zeichenfolge "8086: 6f08" nicht in journalctl oder anderswo, wo ich bisher gesucht habe.
Ungerade Fehlermeldung mit nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/
PCIe: Kämpft Ihre Karte still und leise mit TLP-Neuübertragungen? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/
GTX 1080 mit fehlerhaften TLP-PCIe-Busfehlern - GeForce-Foren https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/
Treiber - PCIe-Fehler im dmesg-Protokoll - Fragen Sie Ubuntu unter /ubuntu/643952/pcie-error-in-dmesg-log
780Ti X99-Hardlock - PCIE-Fehler - NVIDIA Developer Forums https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/
Antworten:
Ich kann zumindest ein paar Details nennen, auch wenn ich nicht vollständig erklären kann, was passiert.
Wie hier beispielsweise beschrieben , kommuniziert die CPU mit dem PCIe-Buscontroller über Transaction Layer Packets (TLPs). Die Hardware erkennt, wenn es fehlerhafte gibt, und der Linux-Kernel meldet dies als Meldungen.
Die Kernel-Option
pci=nommconf
deaktiviert Memory-Mapped PCI Configuration Space, der in Linux seit Kernel 2.6 verfügbar ist. Grob gesagt verfügen alle PCI-Geräte über einen Bereich, der dieses Gerät beschreibt (mit dem Sie es sehenlspci -vv
). Die ursprüngliche Methode für den Zugriff auf diesen Bereich besteht darin, über E / A-Ports zuzugreifen, während PCIe die Zuordnung dieses Speicherbereichs zum Speicher für einen einfacheren Zugriff ermöglicht.Dies bedeutet, dass in diesem speziellen Fall ein Fehler auftritt, wenn der PCIe-Controller diese Methode verwendet, um auf den Konfigurationsbereich eines bestimmten Geräts zuzugreifen. Es kann sich um einen Hardware-Fehler im Gerät, im PCIe-Root-Controller auf dem Motherboard, im spezifischen Zusammenspiel dieser beiden oder um etwas anderes handeln.
Mit
pci=nommconf
wird auf den Konfigurationsbereich aller Geräte auf die ursprüngliche Weise zugegriffen, und das Ändern der Zugriffsmethoden umgeht dieses Problem. Wenn Sie möchten, können Sie das Problem lösen und gleichzeitig unterdrücken.quelle
Versuchen Sie diese Schritte:
cp /etc/default/grub ~/Desktop
Grub bearbeiten.
pci=noaer
Am Ende von hinzufügenGRUB_CMDLINE_LINUX_DEFAULT
. Die Zeile wird wie folgt aussehen:sudo cp ~/Desktop/grub /etc/default/
sudo update-grub
quelle
pci=noaer
,pci=nommconf
wie von @dirktsudoedit
für die sichere Bearbeitung verwenden? -1 für diese Kopie hier und da Schritte sind völliger Unsinnpci=noaer
Deaktiviert lediglich die erweiterte Fehlerberichterstattung. Sie haben also immer noch diese Fehler, Sie sehen sie einfach nicht ...Durch Hinzufügen der Kernel-Befehlszeilenoption wurde
pci=nommconf
das Problem für mich behoben. Daher gehe ich davon aus, dass das Problem mit dem Motherboard zusammenhängt. Das passiert auf allen meinen mit X99-Motherboards ausgestatteten Computern. Dies geschieht nicht auf Z170-Systemen oder anderer Hardware, die ich besitze.quelle
Ich erhalte die gleichen Fehler (Schlechtes TLP in Verbindung mit Gerät 8086: 6f08). Ich habe X99 Deluxe II, Samsung 960 Pro, Nvidia 1080 Ti. Diese Probleme scheinen mit dem X99-Chipsatz und dem M.2-Gerät wie Samsung Pro verbunden zu sein.
Das X99 Deluxe II-Motherboard teilt die Bandbreite zwischen dem PCIE16_3-Steckplatz und M.2 / U.2. Nach einem Kommentar von @Nic habe ich im BIOS die Onboard Devices Configuration | geändert U.2_2 Bandbreite von Auto bis U.2_2. Dies hat das Problem für mich behoben.
quelle
Ich habe die PCIE16_3-Steckplatzkonfiguration in Bios auf meinem x99-E so geändert, dass sie statisch auf den x8-Modus eingestellt ist, anstatt automatisch, der standardmäßig für die Unterstützung von M.2-Geräten verwendet wird. Funktioniert jetzt ohne TLP-Fehler auf meinen beiden 1070GTX-Karten, die über PCIe 1x bis 16x-Erweiterungskarten verbunden sind.
Ich habe nicht zuerst Port 16_3 verwendet, bin zum Testen auf diesen Steckplatz umgezogen, hatte aber noch Probleme vor der Änderung des BIOS. Die Einstellung für den Ruhezustand aller Karten wurde in der Miner-Konfiguration auf 30 geändert.
Vor der Änderung hatte ich das Kernel-Protokoll mit Fehlern überfüllt. Auch versucht, das System vor und nach dem Wechsel zu starten. Scheint ziemlich hartnäckig zu sein.
quelle
Suchen Sie in Ihrem Motherboard-Handbuch nach "AER". Sie können die Ursache des Problems beseitigen, indem Sie entweder die spezifische Inkompatibilität beheben oder die VRE insgesamt deaktivieren. Verwenden Sie diese Option nur, wenn es sich bei sämtlichen Fehler-Spam-Nachrichten um korrigierte Fehler handelt. Andernfalls können Sie ein tatsächliches Problem vertuschen.
quelle