Warum hängt mein System, wenn ich ps, w und möglicherweise andere Befehle ausführe?

10

Ich weiß nicht warum, aber ich kann die Befehle psoder nicht wauf meinem Ubuntu 10.04LTS-Computer ausführen. Ich habe für beide eine Ablaufverfolgung durchgeführt, und beide haben beim Lesen eines Teils derselben Datei angehalten.

Hier ist das Ergebnis des Laufensps

Und hier ist das Ergebnis fürw

Die Datei wurde auch beim Lesen gestoppt ... selbst? http://pastebin.com/9qRB5eHh

Was ist los?

user69239
quelle

Antworten:

9

Ich hatte das einmal passiert, als ein NFS-Server ausfiel.

Die Tatsache, dass es hängen bleibt und versucht, Informationen über PID 17398 zu lesen, und PID 17398 sich im Status D(Festplatten warten) befindet, legt nahe, dass dies auch die Ursache für Sie sein könnte.

read(6, "Name:\tconvert\nState:\tD (disk sle"..., 1023) = 664
open("/proc/17398/cmdline", O_RDONLY)   = 6

Wenn Sie NFS-Mounts haben, ist es meiner Meinung nach am besten, den NFS-Server wieder hochzufahren.

Andernfalls umount -f <mount>könnte helfen.

Mikel
quelle
Ich denke, ein Neustart sollte dies reparieren, aber ich möchte es nicht tun, da ich sicher sein möchte, was die Ursache dafür ist: P
Was mountsagt das aus? Beachten Sie, dass es eine Chance gibt, die auch hängen bleibt (ich denke nicht, dass es sollte, aber ich bin nicht 100% sicher).
Mikel
3

Seufzer geschlossene Fragen Handhabung ist ziemlich schlecht, dies wird das dritte Mal sein, dass ich versuche, dies zu tippen, also bitte verzeihen Sie die Knappheit.

Verwenden Sie zunächst intrNFS-Mounts. Die Standard- hardNFS-Bereitstellungen hängen für immer. softWenn NFS nach einer Zeitüberschreitung einen Fehler auslöst (was für vorübergehende Fehler möglicherweise dumm ist), intrkönnen Sie entscheiden, einen blockierten NFS-Vorgang zu unterbrechen. Genau richtig.

Zweitens, um dieses dumme Problem zu beheben, habe ich vorher einen dummen Trick verwendet , der wahrscheinlich immer noch funktioniert. Rufen Sie eine Schnittstelle alias auf lomit dem IP - Adresse des NFS - Servers ( edit : ifconfig eth0:0 <ipaddress>). Erstellen Sie eine /etc/exportsDatei, die eine Zeile zum Exportieren des Dateisystems enthält, an dem Sie hängen ( Bearbeiten : Exportieren Sie ein Dateisystem mit demselben Namen wie das Dateisystem "hängen"; Sie müssen denselben Pfadnamen wie das bereitgestellte Dateisystem erstellen). . Starten Sie Ihren NFS-Server auf Ihrem lokalen Computer, und hoffentlich kann Ihr blockiertes Programm mit "Datei nicht gefunden" oder "Verzeichnis nicht gefunden" oder ähnlichem einen Fehler verursachen, sodass Sie Ihre Arbeit ohne Neustart fortsetzen können.

Vergessen Sie nicht, Ihren NFS-Server wieder auszuschalten und den Schnittstellenalias zu entfernen, wenn Sie fertig sind.

Sarnold
quelle
Ich benutze intr NFS-Reittiere ... wo haben Sie das Gegenteil gesehen?
user69239
Über den "zweiten Absatz" verstehe ich es nicht sehr gut ... sorry! :(
user69239
@ user69239 Sie haben keine Details angegeben, daher habe ich angenommen, dass Sie den Standard- hardMount-Typ verwenden. :)
Sarnold
@ user69239, ich habe den Absatz mit dem albernen Trick leicht erweitert - ich hoffe, es ist jetzt einfacher zu verstehen. :)
Sarnold
2

Ich bin mir nicht sicher, warum der Fokus auf NFS liegt? Läuft der Fragesteller NFS? Hab nichts davon gesehen.

Wie auch immer, dies ist ein sehr seltsames Problem, da es / proc. Versuchen Sie die folgenden Dinge, um sich mehr Informationen über das Problem zu geben:

  • Gehen Sie in / proc und suchen Sie andere pid-Verzeichnisse und versuchen Sie, die cmdline-Dateien aus diesen Verzeichnissen zu lesen.
  • Versuchen Sie auch / proc / pid / stat zu lesen. Wenn das nicht funktioniert, würde ich sagen, dass Ihr System Kernelprobleme hat.
  • Können Sie netstat -n ausführen? Dies liest aus verschiedenen Teilen von / proc, sodass es möglicherweise funktioniert und weniger Probleme mit der proc-Schnittstelle anzeigt.
  • Versuchen Sie erneut / proc mit mount -o remount / proc, obwohl ich keine Ahnung habe, was dies in dieser Situation tun würde.

Ich würde nur einen Neustart vorschlagen. Wenn Sie nichts aus proc lesen können, bin ich mir nicht sicher, was Sie mit anderen Methoden finden werden. Wenn es wieder passiert, machen Sie sich Sorgen.

Deltaray
quelle
Ja, ich bin mit NFS ... das Problem ist das Kopieren einer Datei durch ein s3-Sicherungssystem
user69239
Sicherung und NFS sind verschiedene Dinge. Ich denke, Sie müssen alle Details angeben, die Sie können. Sie haben viel mit einem Strace versehen, aber es ist ein notwendiger erster Schritt, mehr über Ihr Setup zu wissen und wie alles begann.
Deltaray
Das Problem trat auf, als ein massiver "cp" -Befehl von meinem Host (einer kleinen Instanz von Amazon) an einen S3 gesendet wurde, der mit s3f3 1.40 nur mit der Option allow_other verbunden war. Mein Ubuntu ist eine normale Basis-10.10-Installation mit dem typischen Upgrade. Nichts anderes. Wirklich: P
user69239