Sunday, January 4, 2009

趣闻:什么是“锟斤拷”

http://zh.wikipedia.org/wiki/%E9%94%9F%E6%96%A4%E6%8B%B7

http://initiative.yo2.cn/archives/634636

锟斤拷是一种计算机软件系统内部错误编码导致的文字不正常显示的现象。

Unicode标准中定义了一个Replacement Character,标记为U+FFFD,作用为:

A character used as a substitute for an uninterpretable character from another encoding. The Unicode Standard uses U+FFFD replacement character for this function.

U+FFFD的UTF-8编码结果为"EF BF BD"。如果有一大段文字都是采用了"U+FFFD U+FFFD"作为占位符的话,那么这段字符的UTF-8流十六进制格式为"EF BF BD EF BF BD..."。

如果错误的放置于GB2312/GBK/CP936编码环境里显示的话,最终字符为锟斤拷,他们分别是锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)。由于Web大量采用Gb2312和UTF-8混合编码,该现象在互联网十分普遍。据悉,该现象产生的原因是多方面的,一来是Microsoft、Sun等垄断公司对打广告投入大量资金,但是对编码问题这种细节做得不够细致,二来是PM经常克扣程序员工资,导致程序员代码激情和质量下降。[�源�求]


No comments: