Ist mein Cisco-Switch-Port schlecht?

9

Ich habe in den letzten Tagen ein Problem mit Paketverlust und Netzwerkstabilität für eine Handvoll Endbenutzer in einem internen Netzwerk verfolgt ... Diese Probleme sind letzte Woche aufgetaucht, aber der Standort wurde vor sechs Wochen vom Blitz getroffen .

Ich sah einen Paketverlust von 5-10% zwischen einem Stapel von vier Cisco 2960 und mehreren PCs und Telefonen auf der anderen Seite eines 77-Meter-Laufs. Die PCs wurden inline mit den Telefonen über eine Amtsleitung ( Switchport-Konfigurations-Pastebin ) betrieben. In Client-Server-Anwendungen und in der Microsoft Exchange-Konnektivität wurden Anrufe abgebrochen und unterbrochen.

Ich habe die üblichen Schritte zur Fehlerbehebung aus der Ferne versucht und einen lokalen Techniker in den Pausen der Benutzer- und Produktionsaktivität Folgendes ausführen lassen:

  • Kabel zwischen Wandbuchse und Gerät wechseln.
  • Wechseln Sie die Patchkabel zwischen dem Patchfeld und den Switch-Ports.
  • Probieren Sie verschiedene Switch-Ports im 2960-Stack aus.
  • Endbenutzergeräte durch bekanntermaßen funktionsfähige Geräte (neue Telefone, verschiedene PCs) wechseln.
  • Löschen Sie die Switch-Port-Schnittstellenzähler und überwachen Sie Inkrementierungsfehler genau. ( Pastebin Ausgabe vonsh int )
  • Durchforstet die Geräteprotokolle und Observium RRD-Diagramme . Keine Verbindungsprobleme von der Switch-Seite.
  • Ändern Sie die Steckdosenleisten auf der Endbenutzerseite.
  • Testkabel läuft vom Cisco 2960 mit test cable-diagnostics tdr int Gi4/0/9(sauber) *
  • Das Testkabel läuft mit einem Tripp-Lite-Kabeltester. (reinigen)
  • Führen Sie eine Diagnose für die Switch-Stack-Mitglieder aus. (reinigen)

Am Ende waren drei Änderungen an den Switch-Ports erforderlich, um eine stabile Lösung zu finden. Die einzig logische Schlussfolgerung ist, dass einige Cisco 2960-Switch-Ports schlecht oder schuppig sind ... Nicht tot, aber auch nicht konsistent im Verhalten. Ich bin es nicht gewohnt, dass einzelne Ports auf diese Weise sterben.

Was kann ich noch testen oder überprüfen, um festzustellen, ob diese Geräte defekt sind?

Was ist der Best-Practice-Ansatz, um dies zu überprüfen?

Ist es üblich, dass einzelne Ports Probleme haben und nicht eine zusammenhängende Bank von Ports?


Übrigens - show cable-diagnostics tdr int Gi4/0/14ist sehr cool ...

Interface Speed Local pair Pair length        Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14  1000M Pair A     79   +/- 0  meters Pair B      Normal              
                Pair B     75   +/- 0  meters Pair A      Normal              
                Pair C     77   +/- 0  meters Pair D      Normal              
                Pair D     79   +/- 0  meters Pair C      Normal              
ewwhite
quelle
Könnten Sie "show interface gi4 / 0/9" hinzufügen ... auch Ihre tdr-Ausgabe stammt von gi4 / 0/14 ... wie viele Ports haben das Problem?
Mike Pennington
@ MikePennington 4 von 48 Schnittstellen zeigten Probleme. Zähler wurden gelöscht. Aber der einzige Zähler, der inkrementierte, war:Total output drops: 1461
ewwhite
1461 fällt von insgesamt wie vielen Ausgabepaketen ab? Zeigen alle vier Problemports Leistungsabfälle an?
Mike Pennington
@ MikePennington Pastebin-Ausgabe der Schnittstelle für zwei der problematischen Ports.
ewwhite
1
Keine technische Antwort, aber ... haben Sie einen aktiven TAC-Vertrag? Wenn ja, beziehen Sie es ein: P
ItsGC

Antworten:

7

Während Banken von Häfen häufig einen ASIC gemeinsam nutzen, muss jeder seinen eigenen PHY haben. Wenn der PHY beschädigt wurde, könnte er ein Problem haben, während seine Nachbarn dies nicht tun.

Trotzdem sind Leistungsabfälle ein seltsames Symptom für ein physisches Problem - nicht unmöglich, aber nicht typisch. Ungeachtet von Halbduplex-Verbindungen haben Ausgangsverluste normalerweise mehr mit Puffererschöpfung als mit physischen Problemen zu tun.

Weitere Informationen erhalten Sie möglicherweise, indem Sie eine Paketerfassung auf der anderen Seite des Kabels einrichten. Es wird erwartet, dass sich ein schlechter PHY mit einer bestimmten Anzahl von Fehlern der physischen Schicht (schlechter CRC, Runt / Riese usw.) auf einer oder beiden Seiten der Verbindung manifestiert.

Alles in allem klingt es so, als hätten Sie genug eliminiert, um die Renditen zu verringern. Ich würde eine RMA empfehlen, wenn Sie einen Vertrag haben.

rnxrx
quelle
Ist dies ein Fall, in dem ich alle vier Switches ersetzen müsste, da dies an mehreren Ports an mehreren (2) Switches auftritt, jedoch nur für eine kleine Teilmenge von Benutzern? Es fällt mir nur schwer, mich für den Ersatz einzusetzen, ohne das Kernproblem zu kennen, da der Austausch erhebliche Ausfallzeiten, Verkabelung usw. erfordert.
ewwhite
Blitz ist ein sehr seltsames Tier und Schäden können sich viel später und auf unvorhersehbare Weise manifestieren. Die Ausfallzeit ist natürlich schlecht, könnte aber etwas verbessert werden, indem der Ersatzschalter eingeschleift, die Patches verschoben und die alten herausgezogen werden. Ich wünschte, es gäbe eine einfachere Antwort, aber wenn Sie das Problem auf einige Ports beschränkt haben, ist nicht viel anderes zu tun.
rnxrx
Das PHY ist heutzutage fast immer in den ASIC integriert. Es ist einfach billiger. Die Magnete sind ungefähr der einzige Teil, den sie wirklich nicht in den ASIC integrieren können, der beschädigt werden könnte, aber das ist nicht der PHY. Es ist auch ziemlich üblich, Quad-Set-Magnete zu verwenden. Wenn das Problem also an 4 Ports liegt, ist dies eine gute Idee.
Chris S
Nicht wirklich - wenn Sie die Architektur der meisten Cisco-Switches (einschließlich des fraglichen) durchgehen, werden häufig dieselben ASICs für ein oder zwei Glasfaser- oder Kupfer-GEs oder eine Gruppe von 100TX verwendet. Ein Großteil der Funktionalität wird in Switch-on-Chip-Architekturen auf den ASIC übertragen, aber in diesen Fällen wird die physische Schicht immer noch von einer steckbaren Optik oder einer Art Kupfermedium verarbeitet. Angesichts der Tatsache, dass derselbe ASIC-Komplex häufig unterschiedliche Geschwindigkeits- und Leistungsanforderungen erfüllen kann, ist es nicht sinnvoll, diese Funktion in denselben Spin zu integrieren.
rnxrx
Schließlich wurden alle Switches ausgetauscht, nachdem zu viele Ports so weit verschlechtert waren, dass sie unbrauchbar wurden. Endlich eine gute Verwendung für SmartNet!
ewwhite
2

Ja, ein einzelner Port kann schlecht sein, aber ich erinnere mich, dass Sie das gesamte Modul ersetzen müssen. (Vorsichtsmaßnahme: Es ist lange her, dass ich bedeutende Cisco-Arbeit geleistet habe ...)

Ich bin mir nicht sicher, ob es helfen kann, aber schauen Sie sich FITB von Laurie Denness an, einer der Ops-Ingenieure bei Etsy.

gWaldo
quelle