x86/mce: Add mechanism to safely save information in MCE handler
authorTony Luck <tony.luck@intel.com>
Wed, 14 Dec 2011 23:55:20 +0000 (15:55 -0800)
committerTony Luck <tony.luck@intel.com>
Tue, 3 Jan 2012 20:06:53 +0000 (12:06 -0800)
Machine checks on Intel cpus interrupt execution on all cpus, regardless
of interrupt masking.  We have a need to save some data about the cause
of the machine check (physical address) in the machine check handler that
can be retrieved later to attempt recovery in a more flexible execution
state.

Signed-off-by: Tony Luck <tony.luck@intel.com>
arch/x86/kernel/cpu/mcheck/mce.c

index 2f1c200f05e6d1fee22f17c07957617e2e3d6034..e1579c5a71da356e45b854326ccbc4927cd360fc 100644 (file)
@@ -886,6 +886,49 @@ static void mce_clear_state(unsigned long *toclear)
        }
 }
 
+/*
+ * Need to save faulting physical address associated with a process
+ * in the machine check handler some place where we can grab it back
+ * later in mce_notify_process()
+ */
+#define        MCE_INFO_MAX    16
+
+struct mce_info {
+       atomic_t                inuse;
+       struct task_struct      *t;
+       __u64                   paddr;
+} mce_info[MCE_INFO_MAX];
+
+static void mce_save_info(__u64 addr)
+{
+       struct mce_info *mi;
+
+       for (mi = mce_info; mi < &mce_info[MCE_INFO_MAX]; mi++) {
+               if (atomic_cmpxchg(&mi->inuse, 0, 1) == 0) {
+                       mi->t = current;
+                       mi->paddr = addr;
+                       return;
+               }
+       }
+
+       mce_panic("Too many concurrent recoverable errors", NULL, NULL);
+}
+
+static struct mce_info *mce_find_info(void)
+{
+       struct mce_info *mi;
+
+       for (mi = mce_info; mi < &mce_info[MCE_INFO_MAX]; mi++)
+               if (atomic_read(&mi->inuse) && mi->t == current)
+                       return mi;
+       return NULL;
+}
+
+static void mce_clear_info(struct mce_info *mi)
+{
+       atomic_set(&mi->inuse, 0);
+}
+
 /*
  * The actual machine check handler. This only handles real
  * exceptions when something got corrupted coming in through int 18.