Wie lässt sich Linux auf Multi-CPU-Rechnern zuverlässig booten?

2

Ich habe zwei Maschinen, eine mit 4 x 12 AMD Opteron-Kernen (AMD Opteron (tm) Processor 6176) und eine mit 2 x 8 Xeon-Kernen (HT deaktiviert; Intel (R) Xeon (R) CPU E5-2660 0 @ 2,20 GHz). Auf beiden Rechnern treten beim Booten von Linux mit aktuellen Kerneln Probleme auf. Das System bleibt während der Initialisierung des Kernels hängen, bevor oder gerade, als initramfs mit der Initialisierung der Hardware begann. Das Letzte, was angezeigt wurde, war ein Stacktrace wie dieses:

CPU: 31 PID: 0 Comm: swapper/31 Tainted: G      D      3.11.6-hardened #11
Hardware name: Supermicro X9DRT-HF+/X9DRT-HF+, BIOS 3.00 07/08/2013
task: ffff880854695500 ti: ffff880854695a28 task.ti: ffff880854695a28
RIP: 0010:[<ffffffff8100a82e>]  [<ffffffff8100a82e>] default_idle+0x6/0xe
RSP: 0000:ffff8808546b3ec8  EFLAGS: 00000286
RAX: ffffffff8100a828 RBX: ffff880854695a28 RCX: 00000000ffffffff
RDX: 0100000000000000 RSI: 0000000000000000 RDI: ffff88107fdec690
RBP: ffff8808546b3ec8 R08: 0000000000000000 R09: ffff880854695500
R10: ffff880854695500 R11: 0000000000000001 R12: ffff880854695a28
R13: ffff880854695a28 R14: ffff880854695a28 R15: 0000000000000000
FS:  0000000000000000(0000) GS:ffff88107fde0000(0000) knlGS:0000000000000000
CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
CR2: 000002b43256a960 CR3: 00000000016b5000 CR4: 00000000000607f0
Stack:
 ffff8808546b3ed8 ffffffff8100aec9 ffff8808546b3f10 ffffffff8109ce25
 334ab55852ec7aef 000000000000001f ffffffff8102d6c0 0000000000000000
 0000000000000000 ffff8808546b3f48 ffffffff810276e0 ffff8808546b3f28
Call Trace:
 [<ffffffff8100aec9>] arch_cpu_idle+0x20/0x2b
 [<ffffffff8109ce25>] cpu_startup_entry+0xed/0x138
 [<ffffffff8102d6c0>] ? flat_init_apic_ldr+0x80/0x80
 [<ffffffff810276e0>] start_secondary+0x2c9/0x2f8

Ich habe den Kernel selbst kompiliert und es funktioniert einwandfrei, wenn ich mit Nolapic boote. Es wird jedoch nur ein Kern verwendet. Auch der Kernel von RHEL6 scheint gut zu funktionieren. Ich vermute, dass es einige Patches gibt, mit denen die Dinge funktionieren. Wenn Sie die Kernel-Konfigurationsdatei von RHEL6 verwenden und einen neueren Kernel erstellen, treten dieselben Probleme auf. Auf dem Xeon-Rechner wurde es besser, indem Hyperthreading vollständig deaktiviert wurde. Der Computer bootet jetzt mindestens 4 von 5 Mal erfolgreich. Und wenn es hochfährt, funktioniert Multicore-Zeug einwandfrei. Ich frage mich jedoch, was ich mit der AMD-Maschine tun soll.

Also, um es zusammenzufassen:

  1. Gentoo Kernel 3.6 - 3.11 bootet diese Maschinen nur dann zuverlässig, wenn Sie die Anzahl der Kerne reduzieren (z. B. über Nolapic).
  2. RHEL6 Kernel (welches 2.6.32 ist) bootet ganz gut.
  3. Die RH-Kernelkonfiguration, die zum Erstellen eines 3.x-Kernels verwendet wird, liefert keinen funktionierenden Kernel.
  4. Nicht verteilungsspezifisch (außer dem verwendeten Kernel).
  5. Diese Stapelspuren wurden ungefähr jede Minute gedruckt. Der Kernel scheint in einer Endlosschleife zu stecken.

Ein neuer Kernel wird jedoch aus verschiedenen Gründen benötigt.

Die Frage ist also:

  1. Was macht der RHEL6-Kernel, was Vanille- oder Gentoo-Kernel nicht?
  2. Gibt es eine Startoption, die zu einem zuverlässigen Start mit allen aktivierten Kernen führen kann?

Beste, Adam

Adam Tabi
quelle

Antworten:

0

Mir wurde klar, dass der Kernel der Gentoo-Installationsdiskette einwandfrei funktioniert. Das Erstellen eines Kernels unter Verwendung seiner Konfiguration behebt das Problem. Ich weiß jedoch immer noch nicht, welche Option das Problem überhaupt verursacht hat.

Adam Tabi
quelle