<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>IGI&#039;s Blog &#187; 硬件测试</title>
	<atom:link href="http://www.igigo.net/archives/category/%e7%a1%ac%e4%bb%b6%e6%b5%8b%e8%af%95/feed" rel="self" type="application/rss+xml" />
	<link>http://www.igigo.net</link>
	<description></description>
	<lastBuildDate>Fri, 09 Dec 2011 04:19:40 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.4</generator>
	
<!-- Start Of Script Generated By WP-PostViews Plus -->
<script type='text/javascript' src='http://www.igigo.net/wp-includes/js/jquery/jquery.js?ver=1.4.2'></script>
<script type="text/javascript">
/* <![CDATA[ */
/* ]]> */
</script>
<!-- End Of Script Generated By WP-PostViews Plus -->
	<item>
		<title>EDAC错误</title>
		<link>http://www.igigo.net/archives/61</link>
		<comments>http://www.igigo.net/archives/61#comments</comments>
		<pubDate>Tue, 09 Feb 2010 03:28:59 +0000</pubDate>
		<dc:creator>igi</dc:creator>
				<category><![CDATA[硬件测试]]></category>

		<guid isPermaLink="false">http://www.igigo.net/?p=61</guid>
		<description><![CDATA[这一段时间一直在忙测试内存，足足测试了2个月了，真是悲剧阿，垃圾内存，测试中还发生过比较恶心的连锁反应——把相连的H3C交换机搞挂了，经过抓包及更换交换机、内存进行排查，基本可以断定是新加的兼容内存的不稳定性，在高负载压力时扰乱的网卡发出的电平信号，进而影响了H3C交换机(-_-我也觉得不可思议，不过确实发生了)，换其他牌子的交换机就没事，换原装的内存也没事.唯一欣慰的是， 事情也快结束，希望2月底能全部弄完 以下是整个事情的经过 在检查一批新加兼容内存服务器时，　遇到一个错误，不断的刷到屏幕上，而没有加新内存的服务器却正常，首先怀疑新加内存不兼容，报的错误如下 Jan 8 10:17:08 xxx kernel: [506809.272631] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4 Jan 8 10:17:08 xxx kernel: [506809.272668] EDAC i5000 MC0: &#62;Tmid Thermal event with intelligent throttling disabled Jan 8 10:17:08 xxx kernel: [506809.272722] EDAC MC0: UE row 3，channel-a= 0 channel-b= 1 labels &#34;-&#34;: (Branch=0 DRAM-Bank=2 [...]]]></description>
			<content:encoded><![CDATA[<p>这一段时间一直在忙测试内存，足足测试了2个月了，真是悲剧阿，垃圾内存，测试中还发生过比较恶心的连锁反应——把相连的H3C交换机搞挂了，经过抓包及更换交换机、内存进行排查，基本可以断定是新加的兼容内存的不稳定性，在高负载压力时扰乱的网卡发出的电平信号，进而影响了H3C交换机(-_-我也觉得不可思议，不过确实发生了)，换其他牌子的交换机就没事，换原装的内存也没事.唯一欣慰的是， 事情也快结束，希望2月底能全部弄完</p>
<p>以下是整个事情的经过</p>
<p>在检查一批新加兼容内存服务器时，　遇到一个错误，不断的刷到屏幕上，而没有加新内存的服务器却正常，首先怀疑新加内存不兼容，报的错误如下</p>
<pre class="brush: plain; title: ; wrap-lines: false;">
Jan 8 10:17:08 xxx kernel: [506809.272631] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4
Jan 8 10:17:08 xxx kernel: [506809.272668] EDAC i5000 MC0: &gt;Tmid Thermal event with intelligent throttling disabled
Jan 8 10:17:08 xxx kernel: [506809.272722] EDAC MC0: UE row 3，channel-a= 0 channel-b= 1 labels &quot;-&quot;: (Branch=0 DRAM-Bank=2 RDWR=Write RAS=9879 CAS=0 FATAL Err=0x4)
Jan 8 10:17:09 xxx kernel: [506811.737687] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4
Jan 8 10:17:09 xxx kernel: [506811.737724] EDAC i5000 MC0: &gt;Tmid Thermal event with intelligent throttling disabled
Jan 8 10:17:09 xxx kernel: [506811.737778] EDAC MC0: UE row 1，channel-a= 0 channel-b= 1 labels &quot;-&quot;: (Branch=0 DRAM-Bank=0 RDWR=Read RAS=11057 CAS=0 FATAL Err=0x4)
</pre>
<h3>故障分析</h3>
<pre>
EDAC是内核监控ECC内存状态的模块
i5000是Intel内存控制器
这个错误信息从字面理解是温度过高，而智能调节也没打开产生的告警，在Intel的资料里有提到此信息
第208页，3.22.1
<a href="http://http://www.intel.com/Assets/PDF/datasheet/313071.pdf">http://www.intel.com/Assets/PDF/datasheet/313071.pdf</a>
</pre>
<h3>故障可能原因</h3>
<pre>
1.新内存散热性能不佳产生报警
2.新内存与BIOS不兼容，触发了EDAC模块与BIOS的冲突
</pre>
<h3>故障解决方法</h3>
<pre>
1.最好就是换掉有问题的内存
2.如果实在负载不高，那也可以考虑下屏蔽这个报警，不过这个只是让它不报警，实际问题依然存在，依然存在风险
由于EDAC只是起监控功能，且BIOS本身也有自己的内存监控，可通过屏蔽EDAC来屏蔽这个错误
</pre>
<pre class="brush: plain; title: ;">
在/etc/modprobe.conf添加以下字段
blacklist i5000_edac
</pre>
<p>不加载edac后，再测试内存，不报警，暂时表现正常，但不能排除依然存在内存过热等或不兼容情况对服务造成影响.</p>
<p>参考资料:<br />
1.https://bugs.launchpad.net/ubuntu/+source/linux/+bug/276444<br />
2.http://forums.oracle.com/forums/thread.jspa?threadID=890202&#038;tstart=0<br />
3.https://bugzilla.novell.com/show_bug.cgi?id=418116<br />
4.http://tomoyo.sourceforge.jp/cgi-bin/lxr/source/drivers/edac/i5000_edac.c<br />
5.http://www.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/5.3/html/Release_Notes/sect-Release_Notes-Known_Issues.html<br />
6.http://www.intel.com/Assets/PDF/datasheet/313071.pdf</p>
<p>以下是RH网站提供的方法<br />
<a href="http://www.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/5.3/html/Release_Notes/sect-Release_Notes-Known_Issues.html">http://www.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/5.3/html/Release_Notes/sect-Release_Notes-Known_Issues.html</a></p>
<pre class="brush: plain; title: ;">
如果EDAC模块被加载，BIOS的内存报告功能将失效，因为EDAC模块清除了寄存器里的信息，导致BIOS获取不到有关内存错误的信息
如果想打开BIOS的内存报告功能，需要阻止EDAC模块的加载，把以下信息添加到/etc/modprobe.conf:
blacklist edac_mc
blacklist i5000_edac
blacklist i3000_edac
blacklist e752x_edac
</pre>
]]></content:encoded>
			<wfw:commentRss>http://www.igigo.net/archives/61/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>

