AIX 6.1 startet nicht. Ich benötige Unterstützung, um einen Vorfall zu melden

1

Wie ich geschrieben habe, ist das Problem nun gelöst, aber ich verstehe nicht, was passiert ist und wie ich es gelöst habe! Jetzt muss ich meinem Chef berichten, was genau passiert ist.

Gestern musste ich nach einer Aufgabe zum Optimieren der Leistung von WebSphere meinen P5 neu starten. Nach dem Neustart ist das System auf seiner IP auf en3 nicht mehr erreichbar.

Ich musste über die HMC-Konsole auf das System zugreifen. Das System befand sich in Runlevel 5, in dem nach anderthalb Stunden Wartezeit die Anmeldeaufforderung angezeigt wurde.

Der en3-Adapter war ausgefallen und als ich versuchte, ihn aufzurufen, endete der Befehl nicht und blieb hängen ... Ich habe es auch mit smit versucht, das gleiche Ergebnis ...

Ich habe versucht, en0 mit den Werten von en3 zu konfigurieren (en0 waren nicht angeschlossen), aber das gleiche Problem von en3, wenn ich auf "Fertig" drücke, gehe, um den neuen Wert zu bestätigen, bleibt smit hängen.

Ich habe erneut versucht, einen Neustart durchzuführen. Während des Startvorgangs war das System mindestens zwei Stunden lang im Laden von Daemons (Runlevel 5), aber keine Fehler von der hmc live-Konsole und keine Anmeldeaufforderung (das System befindet sich an einem Remotestandort).

Nach diesen zwei Stunden habe ich beschlossen, meinen Kollegen anzurufen, um das System mit seiner Installations-DVD zu starten. Danach habe ich das Rootvg-Volume gemountet, das ursprüngliche inittab ersetzt und die Netzwerkkonfiguration durch den ursprünglichen en3-Wert ersetzt. Beim nächsten Systemstart ging das System unter guten Bedingungen in ca. 10 Minuten online.

Jetzt habe ich dvd's inittab durch "my original" ersetzt und beim Durchsuchen von errlog werden viele der folgenden Fehler angezeigt:

---------------------------------------------------------------------------
LABEL:          GOENT_LINK_DOWN
IDENTIFIER:     EC0BCCD4

Date/Time:       Mon Jun 16 19:13:43 CEST 2014
Sequence Number: 11466
Machine Id:      00031A1FD600
Node Id:         gde1mo
Class:           H
Type:            TEMP
WPAR:            Global
Resource Name:   ent0
Resource Class:  adapter
Resource Type:   14106902
Location:        U787B.001.DNWFS3S-P1-C5-T1

VPD:
      10/100/1000 Base-TX PCI-X Adapter:
        Part Number.................03N6525
        FRU Number..................03N6525
        EC Level....................H14007$
        Brand.......................H0
        Manufacture ID..............YL1021
        Network Address.............00145EB72A12
        ROM Level.(alterable).......GOL021

Description
ETHERNET DOWN

        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
FILE NAME
line: 346 file: goent_limbo.c
PCI ETHERNET STATISTICS
0000 0007 0061 0853 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 BB80 00F0 0068 0C00 0000 0000 01A0 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000
DEVICE DRIVER INTERNAL STATE
5555 5555 0000 0000 0000 0000
SOURCE ADDRESS
0014 5EB7 2A12

Diagnostic Analysis
Diagnostic Log sequence number: 4124
Resource tested:        ent0
Menu Number:            25C1902
Description:

No trouble was found with this adapter.  However
Error Log Analysis indicates that there recently may
have been a network problem.

If your Ethernet adapter is connected to a network,
and if you are experiencing problems with network
communications, check for a loose or defective
cable or connection.

If a switch or another system is directly attached
to the Ethernet adapter, verify it is powered up,
configured, and functioning correctly.
---------------------------------------------------------------------------

Ist es möglich, dass die von mir konfigurierte Schnittstelle en0 (unplugged) mit den gleichen Werten wie en3 den Systemstart verhindert hat?

Der Fehler, den ich eingefügt habe, ist eine "Warnung" oder "fatal"?

Der AIX-Systemstart kann angehalten oder so stark verlangsamt werden, weil die Schnittstellenkonfiguration nicht übereinstimmt.

Irgendwelche anderen Ideen?

ilRobby
quelle

Antworten:

0

Unabhängig davon, ob die Verbindung unterbrochen ist oder nicht, kann AIX verwirrt sein, wenn Sie für en3 dieselbe IP-Adresse wie für en0 verwenden. Ich kann es dir ehrlich gesagt nicht sagen, da ich es nie getan habe. Wenn Sie Ihre en0-Werte geändert haben, haben Sie Ihre en3-Werte in etwas anderes geändert?

Klingt so, als hättest du mit der DVD inittab keine Probleme. Zunächst setze ich alle en3- und en0-Werte auf den ursprünglichen Wert zurück und wechsle dann zu inittab. Prüfen Sie, ob das Booten von der unberührten DVD inittab keine Probleme verursacht, und prüfen Sie, ob das Booten von der ursprünglichen inittab Probleme verursacht. Wenn das passiert, poste die beiden inittabs, damit wir den Unterschied sehen können.

Auch nur neugierig, aber haben Sie bestätigt, dass diese p-Serie nicht Teil eines Clusters ist? Und dass dort keine Ätherkanäle konfiguriert sind?

ben
quelle
Hallo @ben, ich bin kein AIX-Experte, ich habe versucht, diese Problemumgehung (en3> en0) zu verstehen, wenn das Problem hw / driver / kernel-Modul war ... errpt zeigte nichts über Systemschnittstellen nach dem ersten Neustart. Nein, ich habe nichts an en3 geändert. Ich habe nur das gleiche ip-mask-gw auf en0 gesetzt (keine Domain und kein ns), bevor ich en0 eingerichtet habe, als ich versucht habe, en3 mit smit aufzurufen, der Befehl blieb mindestens dreimal hängen ... Richtig , zuerst sollte ich versuchen müssen, nur eth conf durch dvd zu ersetzen, aber ich dachte nicht, dass die Netzwerkkonfiguration die Startsequenz beeinträchtigen könnte ...
ilRobby
Dies ist ein kleines p5-System mit nur einem lpar, das eine alte, benutzerdefinierte, ziemlich nutzlose Lotus Domino-Anwendung bereitstellt, die nicht auf eine andere Plattform oder vielleicht auf Windows portiert werden kann, aber dies ist eine andere Frage! Ein Cluster-Szenario wäre für diese Anwendung nutzlos und teuer. Ich habe mir zwei bis drei Stunden Zeit für die Fehlerbehebung genommen, nur weil dies kein kritischer Dienst ist!
ilRobby
Ich bin ein bisschen verwirrt. Sie erwähnten, dass inittab config von dvd geändert wurde, nicht eth conf von dvd. Sie hatten erwähnt, als Sie das inittab von der gebooteten DVD ersetzt haben, aber das inittab wieder auf das geändert haben, was Sie hatten, um das Problem zu beheben. Ist das richtig? Wenn ja, setzen Sie alle Netzwerkkonfigurationen auf ihren ursprünglichen Zustand zurück und testen Sie die beiden inittabs. Wenn das von der DVD funktioniert und das von Ihrem System verwendete nicht, können wir die Unterschiede in der Inittab überprüfen, um festzustellen, ob ein Problem vorliegt.
Ben
Der Grund, warum ich nach dem Clustering gefragt habe, ist, dass bei den beiden Servern in einem Cluster möglicherweise ein Failover-Ereignis aufgetreten ist, das die angezeigten Ereignisse beeinflusst hat. Wenn Sie einen EtherChannel haben, kann es sein, dass Sie die Konfiguration je nach EtherChannel-Konfiguration geändert haben. Da Sie weder Cluster noch wahrscheinlich Etherchannel haben, müssen Sie das inittab erneut testen. Hoffe das macht Sinn!
Ben