Ich brauche ein paar frische Augen.
Wir verwenden eine 15 km lange Glasfaserleitung, über die Faserkanal und 10 GbE gemultiplext werden (passives optisches CWDM). Für FC haben wir Langstreckenlaser, die bis zu 40 km lang sind ( Skylane SFCxx0404F0D ). Der Multiplexer ist durch die SFPs begrenzt, die max. 4 Gbit Faserkanal. Der FC-Switch ist eine Brocade 5000-Serie. Die jeweiligen Wellenlängen betragen 1550, 1570, 1590 und 1610 nm für FC und 1530 nm für 10 GbE.
Das Problem ist, dass die 4GbFC-Stoffe so gut wie nie sauber sind. Manchmal sind sie für eine Weile sogar mit viel Verkehr auf ihnen. Dann können sie plötzlich anfangen, Fehler zu produzieren (RX CRC, RX-Codierung, RX-Disparität, ...), selbst wenn nur geringfügiger Datenverkehr auf ihnen vorhanden ist. Ich füge einige Fehler- und Verkehrsdiagramme an. Fehler liegen derzeit in der Größenordnung von 50 bis 100 Fehlern pro 5 Minuten bei 1 Gbit / s Datenverkehr.
Optik
Hier ist die Ausgangsleistung eines Ports zusammengefasst (gesammelt mit sfpshow
verschiedenen Switches)
SITE-A-Einheiten = uW (Mikrowatt) SITE-B ********************************************** FAB1 SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko) RX 95.2 TX 1175.6 FAB2 SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok) RX 54.3 TX 1468.4
Was ich an dieser Stelle neugierig finde, ist die Asymmetrie in den Leistungsstufen. Während SW2 mit 1422uW sendet und SW4 mit 104uW empfängt, empfängt SW2 nur mit 54uW das SW4-Signal mit ähnlicher Ausgangsleistung.
Umgekehrt für SW1-3.
Auf jeden Fall haben die SFPs eine Empfangsempfindlichkeit von bis zu -18dBm (ca. 20uW), also sollte es auf jeden Fall in Ordnung sein ... Aber nichts ist.
Einige SFPs wurden vom Hersteller als fehlerhaft diagnostiziert (die oben gezeigten mit "ko"). Die 1610nm sind anscheinend in Ordnung, sie wurden mit einem Verkehrsgenerator getestet. Die Standleitung wurde ebenfalls mehrmals getestet. Alles ist innerhalb der Toleranzen. Ich warte auf die Ersetzungen, aber aus irgendeinem Grund glaube ich nicht, dass es die Dinge verbessern wird, da die scheinbar guten auch keine ZERO-Fehler produzieren.
Früher waren aktive Geräte beteiligt (eine Art 4GFC-Retimer), bevor das Signal auf die Leitung gelegt wurde. Keine Ahnung warum. Diese Ausrüstung wurde aufgrund der Probleme beseitigt, so dass wir jetzt nur noch haben:
- der Fernlaser im Schalter,
- (neu) 10 m LC-SC-Monomode-Kabel zum Mux (für jedes Fabric),
- die Mietleitung,
- das gleiche, aber umgekehrt auf der anderen Seite des Links.
FC schaltet
Hier ist eine Portkonfiguration von Brocade portcfgshow
(das ist natürlich auf beiden Seiten so)
Bereichsnummer: 0 Geschwindigkeitsstufe: 4G Füllwort (Aktiv) 0 (Leerlauf-Leerlauf) Füllwort (aktuell) 0 (Leerlauf-Leerlauf) AL_PA Offset 13: AUS Amtsanschluss EIN Langstrecken-LS VC Link Init OFF Gewünschte Entfernung 32 Km Reservierte Puffer 70 L_Port gesperrt AUS G_Port gesperrt AUS Disabled E_Port OFF E_Port gesperrt AUS ISL R_RDY-Modus AUS RSCN unterdrückt AUS Dauerhafte Deaktivierung AUS LOS TOV aktivieren AUS NPIV-Fähigkeit EIN QOS E_Port OFF Port Auto Disable: AUS Ratenbegrenzung AUS EX Port AUS Spiegelanschluss AUS Guthabenwiederherstellung EIN F_Port Buffers OFF Fehlerverzögerung: 0 (R_A_TOV) NPIV PP-Limit: 126 CSCTL-Modus: AUS
Das Erzwingen der Links zu 2GbFC führt zu keinen Fehlern, aber wir haben 4GbFC gekauft und wollen 4GbFC.
Ich weiß nicht mehr, wo ich suchen soll. Irgendwelche Ideen, was als nächstes zu versuchen ist oder wie es weitergeht?
Wenn 4GbFC nicht zuverlässig funktioniert, frage ich mich, was die Leute machen, die mit 8 oder 16 arbeiten ... Ich gehe nicht davon aus, dass "ein paar Fehler hier und da" akzeptabel sind.
Übrigens stehen wir mit allen Herstellern in Kontakt (FC-Switch, MUX, SFPs, ...). Außer den SFPs, die geändert werden müssen (einige wurden zuvor geändert), hat niemand eine Ahnung. Brocade SAN Health sagt, dass der Stoff in Ordnung ist. MUX, na ja, es ist passiv, es ist nur ein Prisma, Natur vom Feinsten.
Irgendwelche Aufnahmen im Dunkeln?
ANHANG: Antworten auf Ihre Fragen
@ Chopper3: Dies ist die zweite Generation von Brocades, die das Problem aufweist. Früher hatten wir 5000, jetzt haben wir 5100. Zu Beginn, als wir noch den aktiven MUX hatten, haben wir einmal einen Langstreckenlaser gemietet, um ihn direkt in den Schalter zu stecken, um Tests für einen Tag durchzuführen, an diesem Tag war er natürlich sauber. Aber wie gesagt, manchmal ist es einfach so sauber. Und manchmal ist es nicht. Alternative Switches würden bedeuten, das gesamte SAN neu zu erstellen und nur zu testen. Alternative SFPs, na ja, sie sind einfach so schwer zu bekommen.
@longneck: Die Leitung ist vermietet. Es ist eine dunkle Faser (9um Monomode), also ist sonst niemand drauf. Klar gibt es Spleiße. Ich kann nicht hinschauen, aber ich muss darauf vertrauen, dass sie richtig gemacht wurden. Wie gesagt, die Leitung wurde überprüft und erneut überprüft (unter Verwendung eines optischen Zeitbereichsreflektometers). Offensichtlich haben Sie nicht alle diese Ausrüstung selbst, weil es viel zu teuer ist.
@mdpc: Was wäre für dich der "falsche" Kabeltyp? Bis auf den Schalter ist alles Monomode, ja. Die Anschlüsse sind auch die richtigen. Ja, ich weiß, dass es die grünen gibt, bei denen die Faser in einem bestimmten Winkel abgeschnitten ist usw. Aber wir haben die richtigen für alles, was ich weiß.
Fortschrittsbericht Nr. 1
Wir hatten zwei Fabrics (= 2x2 Switches) mit Brocade 5100s mit FabricOS 6.4.1 und zwei Fabrics (weitere 2x4 Switches) mit FabricOS 7.0.2.
Bei den ISLs für große Entfernungen (eine in jedem Fabric) stellte sich heraus, dass bei FOS 6.4.1 für große Entfernungen Warnungen bezüglich der VC Init-Einstellung und folglich des Füllworts ausgegeben wurden. Das sind aber nur Warnungen. In FOS 7.0.2 müssen Sie Änderungen an VCI und dem Füllwort für Fernverbindungen vornehmen.
Das Setzen von FOS 6.4.1 auf die LS-Einstellung (Long Distance Static Distance) mit falscher VCI- und Füllworteinstellung hat den gesamten Stoff funktionsunfähig gemacht (in einer SCN-Schleife stecken, verwenden, um fabriclog -s
zu sehen, Sie sehen es nirgendwo anders, kein Portfehler) Zähler oder irgendetwas Steigendes).
Momentan gebe ich dem einen Stoff mit den IMHO korrekteren Einstellungen einen Schlag und es scheint in Ordnung zu sein, während der andere ohne viel Verkehr immer noch hier und da Fehler hat.
Zusamenfassend:
- Wir haben den aktiven Teil des MUX (den FC-Retimer) eliminiert.
- Wir bauen die Langstrecken-SFPs selbst in die Endgeräte ein.
- Um sicherzugehen, haben wir neue Monomode-Kabel gekauft, um die Endgeräte mit dem verbleibenden passiven Teil des MUX zu verbinden.
- Wir probieren jetzt einige Fernkonfigurationen aus.
Es ist fast schwarze Magie. Alles, was passiert, ist größtenteils empirisch, niemand scheint eine Ahnung zu haben, was die genauen Gründe sind, etwas zu tun. ("Wir haben es versucht und es hat nicht funktioniert, dann haben wir es versucht und es hat funktioniert, also sind wir dabei geblieben." Aber niemand scheint wirklich zu wissen warum.)
Ich halte dich auf dem Laufenden.
Fortschrittsbericht Nr. 2
Wir haben die neuen Laser für eines der Stoffe auf Garantie bekommen. Es ist auch bei 4GbFC extrem sauber.
Sie senden mit ungefähr 2 mW (3 dBm), während die anderen nur mit 1,5 mW (1,5 dBm) arbeiten, obwohl das eigentlich ausreichen sollte.
Das andere Gewebe (wo die Laser anscheinend in Ordnung sind) erzeugt immer noch ein oder zwei CRCs selten.
Mit sfpshow
dem SFP werden die tatsächlichen Empfangsfehler angezeigt
Status / Strg: 0x82 Alarmflags [0,1] = 0x5, 0x40 Warnflags [0,1] = 0x5, 0x40
Jetzt muss ich herausfinden, was das bedeutet. Ich bin mir nicht sicher, ob es vorher da war.
Nun, ich werde zuerst meinen Kopf mit einer Woche Urlaub klären. 8-)
quelle
Antworten:
Ok, ich denke, ich muss eine Antwort posten. Mit einem Wort heißt es: Bestehen .
Das Problem ist nicht zu 100% nach meinem Geschmack gelöst, da wir immer noch eine Fabric mit 1 (einem) CRC-Fehler haben. Der andere ist sauber. Aber damit kann ich leben.
In jedem Fall werden wir die CWDM-Einheiten nicht sehr lange nutzen, sondern im nächsten Jahr auf einen passiven DWDM-Multiplexer umsteigen, da sich unsere Infrastruktur stark verändern wird. Anscheinend sind DWDM-Laser auch günstiger als die CWDM-Laser. Oh, wir werden sehen und vielleicht habe ich dann viele Probleme, dich zu fragen :-)
Update Nein, wir haben CWDM wieder gekauft und es ist wirklich günstiger. AFAICS für bestimmte Anwendungen jedoch Sie haben zu DWDM gehen , weil es kein CWDM - Laser für sie ist. Schließlich haben wir versucht, so nah wie möglich an den Hersteller heranzukommen, und das Ganze kostete etwa ein Fünftel des Preises im Vergleich zum Kauf bei einem Händler oder sogar einem Integrator.
Wenn Sie also eine Lösung gekauft haben, die nicht wie erwartet funktioniert, kann ich daraus schließen: Bestehen Sie darauf. Auf der technischen Seite haben wir zwei Dinge getan
(Und natürlich alle Standarddiagnosen, ändern Sie eine Sache nach der anderen, sehen Sie, was passiert usw., brauchen Sie das nicht zu sagen. Also haben wir auch jede Leitung und jedes Kabel usw. überprüft, leider auf unsere Kosten.)
In diesem Fall dauerte es lange, bis wir endlich auf dem Niveau waren, auf dem der Hersteller selbst ein paar Leute und einige Geräte für die Durchführung der Überprüfungen erspart hatte, die geholfen haben. Und natürlich mussten wir den Integrator dafür bezahlen, da unsere Hardware gewartet wird. Dies war also sowohl eine kommerzielle als auch eine technische Herausforderung.
PS. Ach ja, die Flaggen, die ich in meinem letzten Update erwähnt habe, zeigten nichts Schlechtes an, aber ich erinnere mich nicht, was sie genau bedeuteten. Wenn ich die Aussage finde, aktualisiere ich der Vollständigkeit halber die Antwort.
Am Ende bedeuteten die Flaggen doch etwas Schlimmes. Anscheinend ist es jedoch nicht sicher, welche Seite des Links die Ursache für die Fehler ist. Also muss dieses Paar auch geändert werden.
Übrigens sind 8GbFC-DWDM-Transceiver nur im Vergleich zu 8G CWDM billiger ;-) Der billigste Weg ist 4GbFC auf CWDM und verwenden Sie dann ISL-Trunking (wenn Sie die Lizenz haben)
quelle