Das kleine College, an dem ich arbeite, hat einige sehr seltsame Netzwerkprobleme. Ich suche hier Ratschläge oder Ideen. Im Sommer ging es uns gut, aber die Probleme begannen wenige Tage, nachdem die Studenten für das Herbstsemester auf den Campus zurückgekehrt waren.
Symptome
Das Hauptsymptom ist, dass der Internetzugang funktioniert, aber er ist sehr langsam ... oft bis zu Zeitüberschreitungen. Ein typisches Ergebnis von Speedtest.net gibt beispielsweise einen Download von 0,4 Mbit / s zurück, ermöglicht jedoch eine Upload-Geschwindigkeit von 3 bis 8 Mbit / s. Zu den geringeren Symptomen gehören eine stark eingeschränkte Leistung beim Übertragen von Daten zu und von unserem Dateiserver oder in einigen Fällen sogar die Unfähigkeit, sich am Computer anzumelden (der Domänencontroller kann nicht erreicht werden). Das Problem betrifft mehrere VLANs und hat Geräte auf nahezu jedem von uns betriebenen VLAN betroffen.
Das Problem betrifft nicht alle Computer im Netzwerk. Auf einem nicht betroffenen Computer werden in der Regel mindestens 11 Mbit / s von speedtest.net heruntergeladen, und möglicherweise viel mehr, abhängig von den aktuellen Verkehrsmustern auf dem Campus.
Es gibt eine Variation des größeren Problems. Wir haben ein VLAN, in dem sich Benutzer nicht bei fast allen Computern anmelden konnten. IT-Mitarbeiter würden sich mit einem lokalen Administratorkonto (oder in einigen Fällen zwischengespeicherten Anmeldeinformationen) anmelden, und von dort aus würde eine Freigabe / Erneuerung oder ein Ping des Gateways es dem Computer ermöglichen, ... für eine Weile zu arbeiten. Erschwerend kommt hinzu, dass dieses VLAN unsere Computerlabors abdeckt, die die Software Deep Freeze verwenden, um die Festplatten nach einem Neustart vollständig zurückzusetzen. Es könnte genau dasselbe Problem sein, das sich aufgrund veralteter Daten auf Computern, die die Informationen auf niedriger Ebene seit Wochen nicht dauerhaft geändert haben, unterschiedlich manifestiert. Wir konnten dies jedoch lösen, indem wir ein neues VLAN erstellten und die Labore auf den neuen VLAN-Großhandel umstellten.
Anstiftungen
Schließlich stellten wir fest, dass alle betroffenen Maschinen kürzlich DHCP-Leases hatten. Wir können vorhersagen, wann eine Maschine "langsam" wird, indem wir beobachten, wann ein DHCP-Lease zur Erneuerung ansteht. Wir haben damit gespielt, die Lease-Zeit für ein Test-VLAN sehr kurz einzustellen, aber alles, was wir getan haben, war, unsere Fähigkeit zu entfernen, vorherzusagen, wann die Maschine langsam werden würde. Maschinen mit statischen IPs haben so gut wie immer normal funktioniert. Das manuelle Freigeben / Erneuern einer Adresse führt niemals dazu, dass eine Maschine langsam wird. In einigen Fällen wurde dieser Prozess sogar behobeneine Maschine in diesem Zustand. Meistens hilft es jedoch nicht. Wir haben auch festgestellt, dass mobile Computer wie Laptops beim Übergang zu neuen VLANs wahrscheinlich langsam werden. Wireless auf dem Campus ist in "Zonen" unterteilt, in denen jede Zone einer kleinen Gruppe von Gebäuden zugeordnet ist. Wenn Sie in ein neues Gebäude umziehen, können Sie sich in einer Zone befinden, wodurch Sie eine neue Adresse erhalten. Eine Maschine, die aus dem Ruhemodus zurückkehrt, ist wahrscheinlich auch langsam.
Milderungen
Manchmal, aber nicht immer, kann der Arp-Cache auf einem betroffenen Computer wieder normal funktionieren. Wie bereits erwähnt, kann das Freigeben / Erneuern der IP-Adresse eines lokalen Computers diesen Computer reparieren, dies ist jedoch nicht garantiert. Das Pingen des Standard-Gateways kann manchmal auch bei einem langsamen Computer hilfreich sein.
Was am meisten zu helfen scheint, um das Problem zu beheben, ist das Löschen des Arp-Cache auf unserem Core-Layer-3-Switch. Dieser Switch wird für unser DHCP-System als Standard-Gateway für alle VLANs verwendet und übernimmt das Inter-VLAN-Routing. Das Modell ist ein 3Com 4900SX. Um das Problem zu beheben, haben wir das Cache-Timeout auf dem Switch auf die niedrigstmögliche Zeit eingestellt, aber es hat nicht geholfen. Ich habe auch ein Skript zusammengestellt, das alle paar Minuten ausgeführt wird, um automatisch eine Verbindung zum Switch herzustellen und den Cache zurückzusetzen. Leider funktioniert dies nicht immer und kann sogar dazu führen, dass einige Maschinen für kurze Zeit im langsamen Zustand sind (obwohl sich diese nach einigen Minuten von selbst zu korrigieren scheinen). Wir haben derzeit einen geplanten Job, der alle 10 Minuten ausgeführt wird, um den Core-Switch zu zwingen, seinen ARP-Cache zu löschen. Dies ist jedoch alles andere als perfekt oder wünschenswert.
Reproduktion
Wir haben jetzt eine Testmaschine, die wir nach Belieben in den langsamen Zustand zwingen können. Es ist mit einem Switch verbunden, dessen Ports für jeden unserer VLANs eingerichtet sind. Wir machen die Maschine langsam, indem wir eine Verbindung zu verschiedenen VLANs herstellen, und nach ein oder zwei neuen Verbindungen wird es langsam.
In diesem Abschnitt ist auch anzumerken, dass dies zu Beginn früherer Semester bereits geschehen ist, aber in der Vergangenheit ist das Problem nach einigen Tagen von selbst verschwunden. Es löste sich von selbst, bevor wir die Gelegenheit hatten, viel diagnostische Arbeit zu leisten ... daher haben wir es diesmal so lange in den Begriff hineinziehen lassen; Die Erwartung war, dass dies eine kurzlebige Situation sein würde.
Andere Faktoren
Es ist erwähnenswert, dass wir im letzten Jahr ungefähr ein halbes Dutzend Schalter hatten, die geradezu versagten. Dies sind hauptsächlich 3Coms aus der Zeit 2003/2004 (meistens 4200), die alle ungefähr zur gleichen Zeit eingesetzt wurden. Sie sollten weiterhin unter die Garantie fallen. Der Kauf von HP hat den Service etwas erschwert. Meistens bei Stromversorgungen, die ausgefallen sind, aber in einigen Fällen haben wir eine Stromversorgung von einem Switch mit einem ausgefallenen Mainboard verwendet, um einen Switch mit einem ausgefallenen Netzteil wieder zum Leben zu erwecken. Wir haben jetzt USV-Geräte an allen bis auf drei von vier Schaltern, aber das war nicht der Fall, als ich vor zweieinhalb Jahren anfing. Aufgrund schwerwiegender Budgetbeschränkungen (wir standen vor ein paar Jahren auf der Liste der finanziell herausgeforderten Institutionen der Abteilung Ed) musste ich mich an Netgear und TrendNet wenden, um Ersatz zu erhalten.
Erwähnenswert ist auch, dass die große Veränderung in unserem Netzwerk in diesem Sommer darin bestand, von einer einzelnen campusübergreifenden drahtlosen SSID auf den zuvor erwähnten Zonenansatz umzusteigen. Ich glaube nicht, dass dies die Ursache des Problems ist, wie ich bereits sagte: Wir haben das schon einmal gesehen. Es ist jedoch möglich, dass dies das Problem verschärft und möglicherweise einer der Gründe dafür ist, dass es so schwer zu isolieren war.
Diagnose
Zunächst schien uns angesichts des Zeitpunkts und der anhaltenden Natur des Problems klar, dass die Ursache des Problems eine infizierte (oder böswillige) Studentenmaschine war, die eine ARP-Cache-Vergiftung durchführt. Wiederholte Versuche, die Quelle zu isolieren, sind jedoch fehlgeschlagen. Diese Versuche umfassen zahlreiche Wireshark-Paketspuren und sogar das Abschalten ganzer Gebäude für kurze Zeit. Wir konnten nicht einmal einen schlechten ARP-Eintrag für eine rauchende Waffe finden. Meine derzeitige beste Vermutung ist ein überlasteter oder fehlerhafter Core-Switch, aber ich bin mir nicht sicher, wie ich das testen soll, und die Kosten für das blinde Ersetzen sind hoch.
Auch hier sind alle Ideen willkommen.
Update:
Core Switch wird ersetzt. Nach 4 Tagen läuft alles gut ... aber ich werde auf die Zwei-Wochen-Marke warten, bevor ich das Problem als behoben bezeichne.
quelle
mtr
kann hier hilfreich sein.Antworten:
Joel,
Da Sie Amtsleitungen eingerichtet haben und das Problem nach Belieben duplizieren können. Installieren Sie Wireshark auf einem Laptop und spiegeln Sie einen Uplink-Port. Wenn Sie eine Paketrate von über 10.000 oder eine Portauslastung nahe der Höchstgeschwindigkeit sehen, haben Sie ein Problem.
Möglicherweise liegt ein Problem mit der Hardware / dem Spanning Tree vor. Normalerweise habe ich festgestellt, dass Benutzer beide Netzwerkkarten auf ihrem Computer anschließen, um "mehr Durchsatz zu erzielen".
Normalerweise können Sie bei Spanning Tree-Problemen die Schleifenerkennung oder die Broadcast-Begrenzung pro Port Ihres Anbieters aktivieren. Dadurch wird jeder Port mit einer gefundenen Schleife beendet. Sie können auch den "bpdu-Schutz" aktivieren, dh den Port deaktivieren, an dem der bpdu empfangen wurde, und einen Fehler an die Syslog / SNMP-Trap-Empfänger senden.
Joe
quelle
Ich habe ähnliche Probleme gesehen und es war eine Schleife im LAN, die Chaos und Sättigung des gesamten Subnetzes verursacht (vermutlich durch Broadcast-Verkehr, da der Switch seinen eigenen MAC an einem zusätzlichen Port sieht).
EDIT: Auch dies ist in Bildungseinrichtungen (zwei meiner früheren Sysadmin-Jobs) üblich, da die kleinen Lieblinge gerne mit Patchkabeln / Steckdosen herumspielen ...
quelle
Klingt für mich so, als hätten Sie schlechte Hardware, die Broadcast-Stürme verursacht. Verwenden Sie Wireshark, um nach Sendungen zu suchen und einen Host zu finden, der Ihnen Probleme bereitet ...
quelle
Joes Idee ist gut, aber da es wahrscheinlich kein Broadcast-Sturm ist, der Ihr Problem verursacht (ich denke, Sie sind mit einer ARP-Cache-Vergiftung oder einem ähnlichen Problem auf dem richtigen Weg; es könnte sogar ein IP-Adresskonflikt sein). es wird das Problem wahrscheinlich nicht lösen.
Eine verwandte Technik zur Verwendung der dynamischen ARP- und DHCP-Prüfung, sofern Ihre Switches dies unterstützen. Wenn Sie dies aktivieren, überwachen die Switches DHCP-Transaktionen und lassen nur ARP-Einträge zu, die mit den bekannten Einträgen in der DHCP-Datenbank übereinstimmen oder die Sie manuell angegeben haben.
Wenn Ihre Switches diese Funktion nicht haben, ist das Linux-Dienstprogramm arpwatch eine weitere Option, um sie aufzuspüren. Sie verfolgt alle ARP-Anforderungen und teilt Ihnen mit, wann eine Änderung der IP-MAC-Zuordnung festgestellt wird.
quelle