Wir hatten kürzlich ein kleines Problem mit dem Netzwerk, bei dem mehrere Server zeitweise die Netzwerkkonnektivität auf eine ziemlich schmerzhaft zu lösende Art und Weise verlieren (erfordert einen harten Neustart). Dies geschieht seit ungefähr zwei Wochen scheinbar zufällig auf verschiedenen Servern. Kein bestimmtes Muster, das wir daran erkennen konnten.
Nachdem wir uns damit beschäftigt hatten, stellten wir fest, dass der Switch 100 Mbit / s für den problematischen Port meldete:
Das klingt bemerkenswert nach dem, was in Joel Spolskys Artikel Five Whys passiert ist
Michael verbrachte einige Zeit mit einem Post-Mortem und stellte fest, dass das Problem ein einfaches Konfigurationsproblem auf dem Switch war. Es gibt mehrere mögliche Geschwindigkeiten, mit denen ein Switch kommunizieren kann (10, 100 oder 1000 Megabit / Sekunde). Sie können die Geschwindigkeit entweder manuell einstellen oder den Switch automatisch die höchste Geschwindigkeit aushandeln lassen, mit der beide Seiten arbeiten können. Der fehlgeschlagene Schalter war auf automatische Verhandlung eingestellt. Dies funktioniert normalerweise, aber nicht immer, und am Morgen des 10. Januar war dies nicht der Fall.
Wir haben die automatische Verhandlung auf unserer Netzwerkhardware jetzt deaktiviert und auf eine feste Rate von 1000 Mbit / s (Gigabit) festgelegt.
Meine Fragen an diejenigen mit mehr Erfahrung in der Vernetzung von Serverhardware:
- Wie häufig treten bei moderner Netzwerkhardware Probleme mit der automatischen Verhandlung auf?
- Wird es als gute Standard-Netzwerkpraxis angesehen, die automatische Verhandlung zu deaktivieren und feste Geschwindigkeiten beim Einrichten des Netzwerks festzulegen?
quelle
Antworten:
Ich habe noch kein Problem mit der automatischen Aushandlung von Netzwerkgeschwindigkeiten festgestellt, das nicht darauf zurückzuführen ist, dass entweder (a) die manuelle Einstellung an einem Ende der Verbindung nicht mit der automatischen Einstellung am anderen Ende übereinstimmt oder (b) eine fehlerhafte Komponente der Verbindung vorliegt ( Kabel, Anschluss usw.).
Dies hängt vom Administrator ab, aber meine Erfahrung hat gezeigt, dass bei manueller Angabe der Verbindungsgeschwindigkeiten und Duplexeinstellungen Geschwindigkeitsinkongruenzen auftreten können. Warum? Weil es fast unmöglich ist, die verschiedenen Verbindungen zwischen Switches und Servern zu dokumentieren und diese Dokumentation dann zu befolgen, wenn Sie Änderungen vornehmen. Die meisten Fehler, die ich gesehen habe, sind auf 1 (a) zurückzuführen, und Sie geraten erst in diese Situation, wenn Sie die Geschwindigkeits- / Duplexeinstellungen manuell vornehmen.
Wie in der Cisco-Dokumentation erwähnt :
Es sei denn, Sie sind bereit, ein Änderungsverwaltungssystem für Netzwerkänderungen einzurichten, das die Überprüfung von Geschwindigkeit / Duplex erfordert (und die Flusskontrolle nicht vergessen), oder Sie sind bereit, mit gelegentlichen Abweichungen umzugehen, die durch die manuelle Angabe dieser Einstellungen auf allen Netzwerkgeräten entstehen. dann bleibe bei der Standardkonfiguration von auto / auto.
Überlegen Sie sich in Zukunft, die Fehler an den Switch-Ports mit MRTG zu überwachen, damit Sie diese Probleme erkennen können, bevor Sie ein Problem haben.
Bearbeiten: Ich sehe eine Menge Leute, die auf Verhandlungsfehler bei alten Geräten verweisen. Ja, dies war vor langer Zeit ein Problem, als die Standards erstellt wurden und nicht alle Geräte ihnen folgten. Sind Ihre Netzwerkkarten und Switches weniger als 10 Jahre alt? Wenn ja, dann ist dies kein Problem.
quelle
Sehr häufig habe ich im Laufe der Jahre zahlreiche Probleme mit verschiedenen Arten von Hardware gehabt.
Wenn das Setup statisch ist (z. B. ein Server-Rack) und Sie nicht glauben, dass es Änderungen geben wird, ist es meiner Meinung nach eine gute Idee, die Geschwindigkeiten und Duplex-Einstellungen manuell vorzunehmen. Solange es gut dokumentiert ist, damit zukünftige Probleme abgewendet werden können.
BEARBEITEN:
Zur Verdeutlichung: Ich befürworte nicht die Verwendung manueller Geschwindigkeiten in Ihrem gesamten Netzwerk. Ich würde sagen, dass in 95% der Fälle auto / auto der richtige Weg ist. Ich sage nur, ich hatte Probleme mit Duplex / Geschwindigkeit und es gibt kleine Teile meines Netzwerks (z. B. eines unserer Server-Racks), die größtenteils manuelle Einstellungen haben. Wir betreiben ein sehr streng kontrolliertes LAN mit nicht genutzten Ports, die heruntergefahren werden, und MAC-Filtern an den meisten Ports, sodass es nicht sehr schwierig ist, die Geschwindigkeit im Auge zu behalten.
quelle
Ich glaube, wenn die Autonegotiation eine Stunde am Tag oder einen Monat lang funktioniert hat und dann aus irgendeinem Grund "etwas passiert", dass das Setzen der Verbindung auf feste Geschwindigkeit "das Problem behebt", gibt es ein Problem, das nicht gelöst, sondern umgangen wird. Ich schätze, ich sehe es so, dass der Link als vorübergehende Lösung festgelegt wird, bis das eigentliche Problem behoben ist.
quelle
Also die Schritte zur Fehlerbehebung (nehmen Sie an, dass Sie nach jedem anhalten und warten, bis das Problem erneut auftritt):
Zu diesem Zeitpunkt haben Sie die Konfiguration, die physischen Ports, an die Sie angeschlossen sind, und die Verkabelung zwischen ihnen beseitigt. Wenn es immer noch passiert, können einige andere Ursachen sein:
Hintergrund / warum meine Antwort am besten ist: Ich arbeite als Netzwerk- / Systemingenieur in der Finanzbranche und habe folgende Erfahrungen mit unserem kleinen globalen Netzwerk (15 Niederlassungen, 8 Rechenzentren) gesammelt:
Alle unsere LAN-Ports sind autoneg, da wir die Geräte an beiden Enden steuern und auf beide Seiten zugreifen können. Dies kann so einfach sein, als würde man jemanden anrufen und die Einstellungen überprüfen lassen. In drei Jahren fiel nur einer unserer internen Ports aufgrund eines Autoneg-Fehlers aus, und das lag an einem fehlerhaften Kabel - es verschwand, nachdem das Kabel ausgetauscht wurde.
Wir hatten weitaus mehr Probleme, als die Vorgänger 100 / full auf ihren NICs fest codiert hatten, und haben diese Tatsache nicht dokumentiert. Setzen Sie im nächsten Hauptfenster alles auf auto / auto zurück und haben Sie seitdem keine Probleme damit.
An den paar Orten, an denen wir eine Kupferübergabe von einem Netzbetreiber für unser WAN erhalten haben? Sie sollten ziemlich oft damit rechnen, dass eine kupferne WAN / Internet-Verbindung die ganze Zeit über nicht funktioniert - zum Teil, weil Sie keine Ahnung haben, was sich auf der anderen Seite befindet. Einige alte Extreme-Switches, die eine fehlerhafte Firmware für Autoneg haben, aber MPLS-Tagging? Ein 5-Dollar-Medienkonverter, weil das 200.000-Dollar-Ciena-Edge-Gerät Ihres ISP einfach zu großartig ist, um Ethernet über Twisted Pair bereitzustellen? Entscheiden Sie im Voraus, wie damit umgegangen werden soll, und halten Sie sich daran. Erwarten Sie dann, dass ein Trottel im Netzbetreiber es an einem Samstag um 22 Uhr ändert, da die vereinbarte Konfiguration nie dokumentiert wurde und einige Richtlinien zu befolgen sind.
Im Ernst, erhalten Sie eine Glasfaserübergabe von Ihrem ISP.
quelle
Das Netzwerk, für das ich verantwortlich bin (zusammen mit ein paar anderen Leuten), besteht aus ca. 40 Servern, über 1000 Arbeitsstationen (verteilt auf einem ziemlich großen Campus) und ca. 1000 WAPs, die sich auch über einen großen Bereich mit unterschiedlichen Typen und Altersgruppen erstrecken von Netzwerkgeräten.
Wie dimitri.p sagte, ist es normalerweise ein Hinweis auf ein anderes Problem, wenn etwas plötzlich nicht mehr automatisch verhandelt werden kann. Das manuelle Einstellen des Anschlusses ist vergleichbar mit dem Anlegen eines Pflasters an jemanden, der in den Darm gestochen wurde - dies könnte die Blutung stoppen, aber es liegt mit Sicherheit ein Schaden darunter.
Meine übliche Checkliste:
Wir, in der Regel nie autoneg auf Servern deaktivieren (oder irgendetwas anderes im Rechenzentrum) , es sei denn es eine Situation ist , wo alle anderen möglichen Ursachen beseitigt wurden, zogen wir Switch - Ports, geändert Kabel, testeten die NIC etc. und es gibt keine andere Wahl. In diesem Fall wird es zu Tode dokumentiert. Dies passiert sehr selten und normalerweise bei Geräten, auf die wir keinen Zugriff haben, um BIOS- und Betriebssystemeinstellungen zu überprüfen.
Die Workstations und APs sind eine andere Geschichte. Ein fehlerhaftes Autoneg ist ein klassisches Zeichen für eine schlechte Kabelführung, und oft müssen wir die Geschwindigkeit und den Duplex-Modus manuell einstellen, bis der Sommer beginnt, in dem neue Kabel in den Wänden verlegt werden.
quelle
Dies ist ein Netzwerk-Mythos. Unsere Netzwerk-Leute schwören auf diesen Quatsch, weil Bay-Switches 1998 nicht mit Cisco oder so verhandeln würden. Anstatt die Standardeinstellung für 99,999% der Geräte auf der Erde zu verwenden, haben wir diese lächerliche Konfigurationsmanagementübung und einen großen Sündenbock für die Zeiten, in denen ein NIC-Treiber-Update die Einstellungen zurücksetzt, um automatisch zu verhandeln, und alles passiert.
Es ist amüsanter, da viele unserer Server zweifelhafte Funktionen wie NIC-Teaming verwenden, die verhindern, dass Sie im unwahrscheinlichen Fall eines Switch-Ausfalls den Netzwerkzugriff verlieren, und Sie gleichzeitig einem weitaus wahrscheinlicheren Softwarefehler aussetzen. (Die Fahrer saugen immer)
Zur Verteidigung der Netzwerk-Leute laufen viele Server mit Windows-Standard-NIC-Treibern, die normalerweise nicht funktionieren. Wenn Sie Probleme mit der automatischen Aushandlung haben und Ihre Ausrüstung nicht mit der Clinton-Administration übereinstimmt, aktualisieren Sie diese NIC-Treiber.
quelle
Sie sollten automatisch verhandeln. Wenn Sie einen Switch haben, der nicht zuverlässig automatisch verhandelt, kaufen Sie einen besseren Switch.
Gigabit soll automatisch verhandeln, und dazu gehört auch die automatische Crossover-Erkennung (MDI-X).
Es ist garantiert , dass 100baseT fehlschlägt, wenn ein Ende auf auto und das andere auf manual eingestellt ist. Dies entspricht den Spezifikationen. Wenn Sie ein Ende zu 100 zwingen / Voll dann das andere Ende wird auf 100 / Halb Autonegotiation Sie eine Duplex - Mismatch zu geben.
quelle
Normalerweise stelle ich Server so ein, dass sie repariert werden, da ich gesehen habe, dass Netzwerkgeräte auf 10 / halb anstatt auf 1000 / voll verhandeln.
Auch einige CoLos stellen ihre Schalter nicht auf Verhandlung, sondern nur auf 1000 / full ein.
quelle
Das Deaktivieren der automatischen Aushandlung in einer nicht getesteten Erstkonfiguration ähnelt der Voodoo-Programmierung - Sie ändern etwas ohne guten Grund. Wenn Sie nach dem Testen feststellen, dass eine Duplex- oder Geschwindigkeitsinkongruenz vorliegt oder der Port übermäßig fehlerhaft ist, führen Sie eine andere Fehlerbehebung durch und beheben Sie die Konfiguration, falls erforderlich.
Wenn Sie einen Treiber aktualisieren oder Hardware austauschen, kann nicht garantiert werden, dass Ihre Einstellungen auf der Serverseite beibehalten werden.
Stellen Sie beide Seiten des Links zum Aushandeln ein oder korrigieren Sie beide Seiten. Wenn Sie die Geschwindigkeits- und Duplexeinstellungen auf einigen Geräten korrigieren, geben diese ihre Funktionen nicht mehr an ihre Kollegen weiter. Ich weiß nicht, was der Ethernet-Standard darüber sagt, was zu tun ist, wenn eine Seite Funktionen ankündigt und die andere Seite nicht, und das bedeutet wahrscheinlich, dass viele Implementierer es auch nicht wissen. Einige wählen den kleinsten gemeinsamen Nenner, der 10-halb ist, und andere gehen davon aus, dass alles in Ordnung ist, und wählen die schnellstmögliche Geschwindigkeit.
Es gibt einige moderne Hardwarekomponenten, die die automatische Aushandlung bei Gigabit-Kupfer-Ethernet nicht unterstützen, wie (zumindest einige) Cisco-Switches mit Kupfer-SFPs.
quelle
Vor vielen Jahren habe ich einige Zeit bei 3com verbracht, um den technischen Support für fast alle Netzwerkgeräte zu übernehmen. Es ist erstaunlich, wie oft dieses Problem aufgetreten ist, und es war so ziemlich das Standardverfahren, alles manuell festzulegen.
quelle
Ich hatte viele Probleme mit der automatischen Aushandlung. Viele bedeuten natürlich alle paar Monate einen, aber das ist ein Problem, das in meinem Buch zu viele sind.
Probleme bei der automatischen Aushandlung sind schwer zu finden, insbesondere wenn es sich bei den Mitarbeitern, die mit Netzwerk, Servern, Anwendungen und Datenbanken befasst sind, um vier verschiedene Teams handelt. Normalerweise verbringen die letzten beiden viel Zeit damit, hin und her zu gehen, sich gegenseitig schlechte Leistung vorzuwerfen und über Messungen zu lügen, und manchmal werden sie den Servern vorgeworfen, die sich die Ausgabe von "top" genau ansehen und sagen, dass alles stimmt gut mit dem Server.
Dies geht so lange weiter, bis die Angelegenheit zu einem Punkt eskaliert, an dem ein "Experte" (tatsächlich jemand, der ein Generalist ist und daher Netzwerke, Hardware, Betriebssysteme, Datenbanken, Frameworks und Anwendungen versteht) dem Problem zugewiesen wird und das Problem findet innerhalb von fünf oder zehn Minuten.
Meine eigene Faustregel lautet also, wann immer ich die Möglichkeit habe, etwas dagegen zu unternehmen, IMMER feste Geschwindigkeiten für Produktionsserver, Switches und Router festzulegen. Nicht-Produktionsserver haben ebenfalls keinen Root-Zugriff, wenn sie für die Benutzer ausreichend getrennt sind.
Switches, die den Desktop- / Notebook-Zugriff verwalten, können automatisch ausgehandelt werden, und es gibt Ausnahmen von der Regel. Um nur eines zu erwähnen: Wenn im Netzwerk viele Änderungen stattfinden, ist es besser, die automatische Einstellung beizubehalten und die Dinge im Auge zu behalten.
Ein weiterer Punkt, der nützlich sein kann , ist die Überwachung der Sache , unabhängig davon, welche Wahl Sie in Bezug auf die automatische Aushandlung treffen . Konfigurieren Sie einfach Nagios oder What-Have-You, um den Status aller wichtigen Ports im Auge zu behalten. Sie überwachen diese Netzwerkgeräte ohnehin schon, oder?
quelle
Grobe. Ich habe 3com-NICs mit 100 MBit / s gesehen, die keine Verbindung mit mehr als 10 MBit / s herstellen würden, wenn Sie die Geschwindigkeit oder Duplex erzwingen würden. Sie konnten nur dann die volle Geschwindigkeit erreichen, wenn sie automatisch verhandeln ließen, obwohl der Treiber die Einstellungen 100 MB Full und 100 MB Half hatte.
Bei vielen NIC-Treibern können Sie nicht 1000 MB angeben. Die einzigen Auswahlmöglichkeiten sind 10, 100, Auto. Wieder zwingen Sie, Auto zu tun, wenn Sie volle Geschwindigkeit wollen. So verhält sich beispielsweise der Broadcom netXtreme 57xx Gigabit-Treiber.
Sie können Gigabit leicht auf den Switch zwingen, aber ich denke, Sie werden gezwungen sein, die meisten Netzwerkkarten automatisch aushandeln zu lassen.
quelle
Nach meiner Erfahrung (meistens 3Com- und HP-Geräte, nicht viel Cisco) verursacht die automatische Aushandlung keine großen Probleme.
Ähnlich wie bei mrdenny stelle ich Server normalerweise auf die höchste Geschwindigkeit ein (wir haben noch einige bei 100), Vollduplex und lasse den Schalter dann auf Auto. Da Server und Workstations unterschiedliche Geschwindigkeiten aufweisen, ziehe ich es vor, die Schalter automatisch zu aktivieren und sie an den Endpunkt anpassen zu lassen.
quelle
Ich hatte einige Probleme mit der Autonegotiation in einem Heim-Setup und das Problem war die Verkabelung, insbesondere die Netzwerkkabel, die in einer Schleife mit zu kleinem Durchmesser aufgerollt sind oder die zu nahe an Stromkabeln liegen.
Aber ich denke, diese Vorschläge sind für Ihr Setup etwas zu trivial. ;)
quelle
Ich habe kürzlich in Network Warrior von Gary Donahue darüber gelesen. Basierend auf diesem Handbuch müssen der Switch und die Netzwerkkarte auf Auto-Negotiation eingestellt sein, damit die Auto-Negotiation ordnungsgemäß funktioniert. Wenn Sie die Netzwerkkarte auf eine bestimmte Geschwindigkeit und einen bestimmten Duplexmodus einstellen und den Server bei der automatischen Aushandlung belassen, funktioniert dies nicht ordnungsgemäß. Die automatische Aushandlung ist ein Protokoll, das beide Seiten verwenden müssen, damit die Einstellungen ordnungsgemäß funktionieren.
Wenn Sie die Geschwindigkeit und den Duplexmodus explizit einstellen möchten, müssen Sie dies an beiden Enden der Verbindung tun.
quelle
Cisco erörtert einige Fälle, in denen Sie möglicherweise die Portgeschwindigkeit und den Duplexdruck manuell konfigurieren möchten, anstatt die automatische Aushandlung zu verwenden, wenn Sie PIX / ASA-Sicherheitsgeräte verwenden: http://www.cisco.com/en/US/products/hw/vpndevc/ps2030/ products_tech_note09186a008009491c.shtml # Fehlerbehebung
quelle
Meine Faustregel ist, für alles außer für Router-Links die automatische Verhandlung zu verwenden, es sei denn, Sie haben speziell ein Problem (wie aktuelle Broadcom-Karten ... BAH!).
Wenn Sie beispielsweise zwei Router über Ethernet verbunden haben, stellen Sie die Geschwindigkeit an beiden Enden manuell ein.
quelle