[PATCH] x86: Allow users to force a panic on NMI
authorDon Zickus <dzickus@redhat.com>
Tue, 26 Sep 2006 08:52:27 +0000 (10:52 +0200)
committerAndi Kleen <andi@basil.nowhere.org>
Tue, 26 Sep 2006 08:52:27 +0000 (10:52 +0200)
To quote Alan Cox:

The default Linux behaviour on an NMI of either memory or unknown is to
continue operation. For many environments such as scientific computing
it is preferable that the box is taken out and the error dealt with than
an uncorrected parity/ECC error get propogated.

A small number of systems do generate NMI's for bizarre random reasons
such as power management so the default is unchanged. In other respects
the new proc/sys entry works like the existing panic controls already in
that directory.

This is separate to the edac support - EDAC allows supported chipsets to
handle ECC errors well, this change allows unsupported cases to at least
panic rather than cause problems further down the line.

Signed-off-by: Don Zickus <dzickus@redhat.com>
Signed-off-by: Andi Kleen <ak@suse.de>
arch/i386/kernel/traps.c
arch/x86_64/kernel/traps.c
include/linux/kernel.h
include/linux/sysctl.h
kernel/panic.c
kernel/sysctl.c

index 7db664d0b25c7365d1299e55267c3eb507c07c68..2f6cb827648022dd202b63b328627e00d634be46 100644 (file)
@@ -635,6 +635,8 @@ static void mem_parity_error(unsigned char reason, struct pt_regs * regs)
                        "to continue\n");
        printk(KERN_EMERG "You probably have a hardware problem with your RAM "
                        "chips\n");
+       if (panic_on_unrecovered_nmi)
+                panic("NMI: Not continuing");
 
        /* Clear and disable the memory parity error line. */
        clear_mem_error(reason);
@@ -670,6 +672,10 @@ static void unknown_nmi_error(unsigned char reason, struct pt_regs * regs)
                reason, smp_processor_id());
        printk("Dazed and confused, but trying to continue\n");
        printk("Do you have a strange power saving mode enabled?\n");
+
+       if (panic_on_unrecovered_nmi)
+                panic("NMI: Not continuing");
+
 }
 
 static DEFINE_SPINLOCK(nmi_print_lock);
index 42bc070fdf11ef5d27db34cb4fd50e3f0e6bc6cf..b18829db2a6ab9eafc589f002abc6f0dc606807c 100644 (file)
@@ -732,6 +732,8 @@ mem_parity_error(unsigned char reason, struct pt_regs * regs)
 {
        printk("Uhhuh. NMI received. Dazed and confused, but trying to continue\n");
        printk("You probably have a hardware problem with your RAM chips\n");
+       if (panic_on_unrecovered_nmi)
+               panic("NMI: Not continuing");
 
        /* Clear and disable the memory parity error line. */
        reason = (reason & 0xf) | 4;
@@ -757,6 +759,10 @@ unknown_nmi_error(unsigned char reason, struct pt_regs * regs)
 {      printk("Uhhuh. NMI received for unknown reason %02x.\n", reason);
        printk("Dazed and confused, but trying to continue\n");
        printk("Do you have a strange power saving mode enabled?\n");
+
+       if (panic_on_unrecovered_nmi)
+                panic("NMI: Not continuing");
+
 }
 
 /* Runs on IST stack. This code must keep interrupts off all the time.
index 2b2ae4fdce8bbd689e5be2fe52be1ccc3add879b..1ff9609300b49aa621f5bd34d1358b98ba0dafe2 100644 (file)
@@ -186,6 +186,7 @@ extern void bust_spinlocks(int yes);
 extern int oops_in_progress;           /* If set, an oops, panic(), BUG() or die() is in progress */
 extern int panic_timeout;
 extern int panic_on_oops;
+extern int panic_on_unrecovered_nmi;
 extern int tainted;
 extern const char *print_tainted(void);
 extern void add_taint(unsigned);
index ecb79ba52ae19b235758ff06a9af62c642cae3ae..432778446ad26b5a1ff0e5f04ee67e848758a391 100644 (file)
@@ -151,6 +151,7 @@ enum
        KERN_COMPAT_LOG=73,     /* int: print compat layer  messages */
        KERN_MAX_LOCK_DEPTH=74,
        KERN_NMI_WATCHDOG=75, /* int: enable/disable nmi watchdog */
+       KERN_PANIC_ON_NMI=76, /* int: whether we will panic on an unrecovered */
 };
 
 
index 8010b9b17aca06eba731d72ec9b44f7144e45d3d..d2db3e2209e0e20ae64f8c1537a09a048e95edfe 100644 (file)
@@ -21,6 +21,7 @@
 #include <linux/debug_locks.h>
 
 int panic_on_oops;
+int panic_on_unrecovered_nmi;
 int tainted;
 static int pause_on_oops;
 static int pause_on_oops_flag;
index 040de6bd74dd8cb527d1ef1544cb3d9b45eacbb8..220e2056412433912881ae45405ed6fb838eadb1 100644 (file)
@@ -641,6 +641,14 @@ static ctl_table kern_table[] = {
        },
 #endif
 #if defined(CONFIG_X86)
+       {
+               .ctl_name       = KERN_PANIC_ON_NMI,
+               .procname       = "panic_on_unrecovered_nmi",
+               .data           = &panic_on_unrecovered_nmi,
+               .maxlen         = sizeof(int),
+               .mode           = 0644,
+               .proc_handler   = &proc_dointvec,
+       },
        {
                .ctl_name       = KERN_BOOTLOADER_TYPE,
                .procname       = "bootloader_type",