Ubuntu 18.04 Fehler beim Aufwachen aus dem Ruhezustand: Lesefehler auf Swap-Gerät

11

Nachdem sich der Laptop einige Stunden im Ruhemodus befunden hat, wird beim Versuch, meine Sitzung fortzusetzen, die folgende Fehlermeldung angezeigt:

Lesefehler auf Swap-Gerät

Es dauert ungefähr 30 Sekunden, bis der Anmeldebildschirm nach diesem Ereignis geladen ist. Sobald ich mich anmelde, wird der Bildschirm ein- oder zweimal für eine Sekunde ausgeblendet und keines meiner Programme ist mehr geöffnet. Ich erhalte die Eingabeaufforderung "Systemproblem erkannt". Wenn ich auf "Bericht senden" klicke, wird eine weitere Benachrichtigung angezeigt:

Entschuldigung, das Programm "Xorg" wurde unerwartet geschlossen. Ihr Computer verfügt nicht über genügend freien Speicher, um das Problem automatisch zu analysieren und einen Bericht an die Entwickler zu senden.

Was ich bisher versucht habe, ist, den verfügbaren Swap-Platz zu vergrößern. Anfangs waren es ungefähr 2 GB und ich habe eine weitere Auslagerungsdatei mit 9 GB erstellt. Das hat nicht geholfen. Der belegte Swap-Speicherplatz (gemäß dem Swapon-Befehl) nach dem Absturz beträgt immer ca. 170 MB.

Das DMESG für die Wiederaufnahme meiner Sitzung bis zum Lesefehler auf dem Swap-Gerät lautet wie folgt:

    
[64046.474054] ACPI: Lebenslauf auf niedriger Ebene abgeschlossen
[64046.474162] ACPI: EC: EC gestartet
[64046.474162] PM: Wiederherstellen des NVS-Speichers der Plattform
[64046.475139] Aktivieren von Nicht-Boot-CPUs ...
[64046.475196] x86: Booten der SMP-Konfiguration:
[64046.475196] smpboot: Booten von Knoten 0 Prozessor 1 APIC 0x2
[64046.475663] Cache: Die übergeordnete CPU1 sollte nicht schlafen
[64046.475859] CPU1 ist aktiv
[64046.475910] smpboot: Booten von Node 0 Processor 2 APIC 0x4
[64046.476330] Cache: Die übergeordnete CPU2 sollte nicht schlafen
[64046.476506] CPU2 ist aktiv
[64046.476539] smpboot: Booten von Node 0 Processor 3 APIC 0x6
[64046.477071] Cache: Die übergeordnete CPU 3 sollte nicht schlafen
[64046.477255] CPU3 ist aktiv
[64046.477274] smpboot: Booten von Node 0 Processor 4 APIC 0x1
[64046.477721] Cache: Die übergeordnete CPU4 sollte nicht schlafen
[64046.477922] CPU4 ist aktiv
[64046.477947] smpboot: Booten von Node 0 Processor 5 APIC 0x3
[64046.478371] Cache: Die übergeordnete CPU5 sollte nicht schlafen
[64046.478571] CPU5 ist aktiv
[64046.478591] smpboot: Booten von Node 0 Processor 6 APIC 0x5
[64046.479018] Cache: Die übergeordnete CPU 6 sollte nicht schlafen
[64046.479229] CPU6 ist aktiv
[64046.479247] smpboot: Booten von Node 0 Processor 7 APIC 0x7
[64046.479675] Cache: Die übergeordnete CPU7 sollte nicht schlafen
[64046.479899] CPU7 ist aktiv
[64046.485913] ACPI: Aufwachen aus dem Systemschlafzustand S3
[64046.639206] ACPI: EC: Ereignis nicht blockiert
[64046.639711] sd 2: 0: 0: 0: [sda] Startdiskette
[64046.873289] USB 1-11: Setzen Sie das USB-Gerät Nummer 2 mit voller Geschwindigkeit mithilfe von xhci_hcd zurück
[64046.976869] ata4: SATA-Verbindung unterbrochen (SStatus 4 SControl 300)
[64046.976892] ata2: SATA-Verbindung unterbrochen (SStatus 4 SControl 300)
[64047.149289] USB 1-6: Setzen Sie das Hochgeschwindigkeits-USB-Gerät Nummer 40 mit xhci_hcd zurück
[64047.437370] psmouse serio1: synaptics: Abgefragte maximale Koordinaten: x [..5660], y [..4570]
[64047.476302] psmouse serio1: synaptics: abgefragte min-Koordinaten: x [1364 ..], y [1284 ..]
[64047.922603] OOM-Killer aktiviert.
[64047.922605] Neustart von Aufgaben ... erledigt.
[64047.928727] thermische thermische Zone1: thermische Zone konnte nicht ausgelesen werden (-61)
[64047.930036] Bluetooth: hci0: Bootloader Revision 0.0 Build 2 Woche 52 2014
[64047.935036] Bluetooth: hci0: Geräteversion ist 5
[64047.935037] Bluetooth: hci0: Sicherer Start ist aktiviert
[64047.935038] Bluetooth: hci0: OTP-Sperre ist aktiviert
[64047.935038] Bluetooth: hci0: API-Sperre ist aktiviert
[64047.935039] Bluetooth: hci0: Die Debug-Sperre ist deaktiviert
[64047.935040] Bluetooth: hci0: Mindest-Firmware-Build 1 Woche 10 2014
[64047.935042] Bluetooth: hci0: Gerätefirmware gefunden: intel / ibt-11-5.sfi
[64047.944372] PM: Beenden Sie den Exit
[64048.050329] Lesefehler auf dem Swap-Gerät (8: 0: 1543400288)
[64048.460888] [drm] RC6 ein

Bitte lassen Sie mich wissen, wenn weitere Informationen benötigt werden.

Vedant
quelle
Ich habe ein sehr ähnliches Problem: Nach dem Upgrade auf 18.04 führt das Schließen des Laptopdeckels zur gleichen Fehlermeldung (Lesefehler auf dem Austauschgerät) und zu einem Neustart. Wenn Sie es schaffen, anderswo eine Lösung zu finden, wäre es großartig, wenn Sie sie hier teilen könnten.
Adrian
1
Genau das gleiche Problem haben. Ich habe einige Nachforschungen angestellt und Benutzer von Arch Linux hatten vor ein paar Monaten das gleiche Problem und kamen zu dem Schluss, dass es wahrscheinlich etwas mit dem Kernel 4.15 zu tun hat
user8814

Antworten:

10

Dem Ubuntu 18.04-Kernel, den Sie derzeit verwenden, fehlt eine ziemlich wichtige Fehlerbehebung.

Das Update hierfür ist bereits in der Upstream-Linux-Kernel-Version 4.16.8 vorhanden. (Der Suspend-Fehler trat effektiv in Kernel-Version 4.15 auf.) Ubuntu muss nur diesen kleinen Patch von Upstream auswählen. Der Fehler führt häufig dazu, dass Xorg unmittelbar nach dem Anhalten abstürzt, dh die gesamte grafische Anmeldesitzung stürzt ab.

Beachten Sie, dass dieser Fehler häufig auftritt, ohne dass er angezeigt wird Read-error on swap device. Meistens gab es keinen Fehler im Kernel-Protokoll. (Ein paar Mal zeigte es EXT4-fs errorund Buffer I/O errorstattdessen). Diese Fehlermeldungen können stattdessen auch durch einen Hardwarefehler verursacht werden. Konzentrieren Sie sich bei der Diagnose dieses Problems auf andere, deutlichere Details.

Ein Testkernel ist am Ende dieses Ubuntu-Fehlers verfügbar, dh in diesem Kommentar: https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1776887/comments/5

Bisher hat niemand über die Ergebnisse des Suspendierens mit dem Ubuntu-Testkernel berichtet. Wenn jemand Erfolg melden kann, wird der Ubuntu-Entwickler möglicherweise dazu ermutigt, die Fehlerbehebung endgültig einzuschließen. Ich könnte mich jedoch irren, ich bin mir nicht 100% sicher, was das aufhält.

Es gibt auch eine bekannte Problemumgehung. Sie können den Absturz vermeiden, wenn Sie die Kernel-Befehlszeile so konfigurieren, dass sie die Option enthält scsi_mod.scan=sync.

https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1776887


Es wurde bestätigt, dass dieser Upstream-Fehler Ubuntu-Benutzer betrifft [1]. Gemäß dem Fix Commit (unten) ist das häufigste Symptom ein Absturz von Xorg / Xwayland, dh das Beenden der gesamten GUI, wenn ein Laptop aus dem Systemschlaf geweckt wird. Die Häufigkeit des Fehlers wird alle paar Tage beschrieben [2].

[1] ZB bestätigt dieser Benutzer den Fehler und die sehr spezifische Problemumgehung: https://bugs.launchpad.net/ubuntu/+source/xorg-server/+bug/1760450/comments/11

[2] ZB dieses Absturzprotokoll: https://bugzilla.redhat.com/show_bug.cgi?id=1553979#c23

Dies ist ein Fehler in blk-core.c. Es ist nicht spezifisch für einen Hardwaretreiber. Technisch gesehen wird der Suspend-Fehler vom SCSI-Kern ausgelöst, der von allen SATA-Geräten verwendet wird .

Das Commit beinhaltet auch einen Test, der schnell und zuverlässig die Existenz eines schrecklichen Fehlers beweist.

Ich denke, Sie könnten diesen Fehler nur vermeiden, wenn Sie Root auf NVMe haben. Die andere Möglichkeit, den Xorg-Absturz nicht zu verhindern, besteht darin, dass Sie nicht den gesamten Arbeitsspeicher verwenden. Es besteht also kein Druck, der dazu führt, dass kalte Seiten von Xorg ausgetauscht werden. Außerdem werden Sie den Xorg-Absturz nicht reproduzieren, wenn Sie sofort anhalten + fortsetzen. (Dies frustrierte meine Tests an einem Punkt, es wurde erst ausgelöst, nachdem das System während des Mittagessens ausgesetzt worden war :).

Fix: "Block: Interruptible Wait nirgendwo verwenden"

in Kernel 4.17: https://github.com/torvalds/linux/commit/1dc3039bc87ae7d19a990c3ee71cfd8a9068f428

im Kernel 4.16.8: https://git.kernel.org/pub/scm/linux/kernel/git/stable/linux-stable.git/commit/?h=linux-4.16.y&id=7859056bc73dea2c3714b00c83b253d4c22bf7b6

Fehlender Fix in 4.15.0-24.26 (Ubuntu 18.04): https://git.launchpad.net/~ubuntu-kernel/ubuntu/+source/linux/+git/bionic/tree/block/blk-core.c ? id = Ubuntu-4.15.0-24.26 # n856

Dh dieser Fehler ist immer noch im Ubuntu-Quellpaket Linux-4.15.0-24.26 (und 4.15.0-23.25) vorhanden. Ich füge Hardwaredetails (lspci-vnvn.log) eines Systems hinzu, auf dem dieser Fehler bekanntermaßen auftritt.

Grüße Alan

Problemumgehung: Verwenden Sie den Kernel-Parameter: scsi_mod.scan = sync

sourcejedi
quelle
Hervorragende Arbeit! Bestätigt unter Ubuntu 18.04 mit 4.15 Kernel.
Ricosrealm
Eigentlich hat das nach einem zweiten Test nicht funktioniert.
Ricosrealm
@ricosrealm am unerwartetsten. Bitte bestätigen Sie, dass sich Ihr Problem (manchmal) als SIGBUS (Signal Nummer 7) in Xorg oder Gnome-Shell manifestiert. Dies ist einfach, wenn Sie systemd-coredumpinstalliert und verwendet haben coredumpctl -r, aber ich weiß nicht, was zu tun ist, wenn Sie Apport installiert haben. (Systemd-Coredump- und Apport-Pakete stehen in Konflikt miteinander, bitte üben Sie ein Urteil aus).
Sourcejedi
@ricosrealm Aber zumindest kann ich Ihnen bestätigen bitten , dass 1) Ihre aktuelle grafische Sitzung geht weg, aber das System bleibt sonst nutzbar und Sie können wieder 2) wieder anmelden dmesgwird nicht zeigen eine „segfault“ Nachricht für Xorg / gnome-shell . (Und am häufigsten werden keine Kernelfehler angezeigt, aber manchmal wird möglicherweise "Lesefehler auf dem Auslagerungsgerät" angezeigt.)
Sourcejedi
@ricosrealm Übrigens, der Patch scheint etwas mehr Fortschritte gemacht zu haben, seit ich die Antwort gepostet habe. lists.ubuntu.com/archives/kernel-team/2018-June/093612.html
sourcejedi