Triage: diagnosing production run failures at the user's site

16 years 3 months ago

Download www.sosp2007.org

Diagnosing production run failures is a challenging yet important task. Most previous work focuses on offsite diagnosis, i.e. development site diagnosis with the programmers present. This is insufﬁcient for production-run failures as: (1) it is difﬁcult to reproduce failures offsite for diagnosis; (2) offsite diagnosis cannot provide timely guidance for recovery or security purposes; (3) it is infeasible to provide a programmer to diagnose every production run failure; and (4) privacy concerns limit the release of information (e.g. coredumps) to programmers. To address production-run failures, we propose a system, called Triage, that automatically performs onsite software failure diagnosis at the very moment of failure. It provides a detailed diagnosis report, including the failure nature, triggering conditions, related code and variables, the fault propagation chain, and potential ﬁxes. Triage achieves this by leveraging lightweight reexecution support to efﬁciently capture t...

Joseph Tucek, Shan Lu, Chengdu Huang, Spiros Xanth

Real-time Traffic

Failure Diagnosis Protocol | Failure Diagnosis Technique | Operating System | Software Failure Diagnosis | SOSP 2007 |

claim paper

Added	17 Mar 2010
Updated	17 Mar 2010
Type	Conference
Year	2007
Where	SOSP
Authors	Joseph Tucek, Shan Lu, Chengdu Huang, Spiros Xanthos, Yuanyuan Zhou

Sciweavers

Triage: diagnosing production run failures at the user's site

Failure Diagnosis Protocol | Failure Diagnosis Technique | Operating System | Software Failure Diagnosis | SOSP 2007 |

Explore & Download

Productivity Tools

Sciweavers