BOM简介

BOM全称为byte order mark,它是UTF编码方案里用于标识编码的标准标记。它的实现是在文本文件的最开始增加特定的几个字节,用于说明该文本文件使用的编码方式。以下是各种UTF编码的ROM:



查看BOM最常用的方式是使用UltraEdit打开文本文件,按Ctrl+H切换到十六进制编辑器,查看其最开始的几个字节:



虽然Unicode中有规定在文本文件中使用BOM,但有些软件上并没有这样做,也就是说一个UTF文件可能有BOM,也可能没有BOM。

下面是常用三个文本编辑工具对ROM支持情况:

·Notepad:文件保存时,选择 UTF-8 格式,会在文件头写上BOM;
·EditPlus:文件保存时,选择 UTF-8 格式,不会在文件头写上BOM;
·UltraEdit:对UTF-8 的支持最为完备,可以通过设置选择文件保存时是否写上BOM;

big-endian和little-endian的区别

big-endian表示将一个字符的高位字节放在这个字符的低地址处;
little-endian表示将一个字符的低位字节放在这个字符的低地址处;

例如我们将0x1234abcd写入到以0x0000开始的内存中,则结果为:



参考

·http://www.shengfang.org/blog/p/20070809utf8efbbbf.php
·http://www.unicode.org/faq/utf_bom.html
·http://blog.vckbase.com/smileonce/archive/2005/02/22/3202.aspx

评论: 0 | 引用: 0 | 查看次数: 3979
发表评论
登录后再发表评论!