1个字节:0XXXXXXX
2个字节:110XXXXX 10XXXXXX />3个字节: 1110XXXX 10XXXXXX 10XXXXXX
4个字节:11110xxx 10XXXXXX 10XXXXXX 10XXXXXX
本文根据上面的字符串遍历的特点来确定一个字符串是否是UTF-8编码。应当注意的是,每个字节的UTF-8字符串的值具有一定的范围,而不是所有的值?是有效的UTF-8字符,但在一般应用足够长的字符串判断的情况下,更准确,是实现比较简单。具体的字节范围,可以发现在这本书的“Unicode解释”6.4.3。
布尔IsUTF8(const void *的pbuffer的,长尺寸)
{
布尔IsUTF8 = TRUE
unsigned char型*开始=(无符号字符*)pbuffer的/无符号的char *结束=(unsigned char型)pbuffer的+大小
(起点和终点)
{
(*开始<0X80)/ /(10000000):值小于0x80的ASCII的字符
{
开始+ +
}
否则,如果(*启动<(0XC0))/ /(11000000):值吗? 0XC0之间的范围0x80无效的UTF-8字符
{
IsUTF8 = FALSE
突破
}
否则,如果(*开始(0XE0))/在2个字节的UTF-8字符/(11100000):
{
(开始>=结束 - 1)
突破
((开始[1](0XC0) )= 80H时)
{
IsUTF8 = FALSE
突破
}
开始+ = 2
}
否则,如果(*启动<(31:8))/ /(11110000):结束的3个字节的UTF-8字符
{
(“开始”>= - 2)
突破。 .. />((开始[1](为0xC0))= 0x80的| |(启动[2](为0xC0))= 80H时)
{
IsUTF8 = FALSE
休息
}
开始+ = 3
}
{
IsUTF8 = FALSE
突破
}
}
回报IsUTF8
}
UTF-UCS编码的16至16个单位。小于0x10000的UCS码,UTF-16编码是等于相应的UCS代码的16位无符号整数。对于不小于0x10000的UCS码,定义了一个算法。然而,实际使用的UCS2,或者UCS4的BMP必然小于0x10000,所以现在你可以认为UTF -16和UCS-2基本相同。 UCS-2是一种编码方案,UTF-16已被用于实际的传输,所以我们要考虑的字节顺序。
一、这个转换关键要有码表,而不是什么语言。UTF-8不一定总能转换成GB2312、GBK、GB-18030等。GB2312实际上是UTF-8(Unicode的一种形式)的一个子集。常用的基本方式有两个类别:
1、iconv,这个是通用的,具体的看手册
2、Windows的WideCharToMultiByte、MultiByteToWideChar。WideChar就是Unicode(UTF-16),UTF-8、GB2312等同属于MultiByte,先要将UTF-8变成WideChar,然后将WideChar再变成GB2312。
二、如果只有一两个文件,用记事本打开UTF8文件,然后保存,保存时点击“保存选项”按钮,选择文件格式为ANSI,在中文Windows环境下,这个新文件就是GB2312格式的了。
可能和编辑器保存时的格式有关。一般对于UTF-16等格式,会在文件开头加上一个byte order mark,即BOM,用来在加载时识别该文件编码。对于没有BOM的文件,一般编辑器会读取一定的内容,对该内容进行分析,并猜测对应的文件编码,所以这种文件不是所有时候会被正确识别,所以会出现乱码。而对于UTF-8,如果保存时没有加上对应的BOM,那么可能编辑器在加载时会误认为ANSI。但是由于UTF-8向下兼容ANSI,所以一个以ANSI保存的文件可以用UTF-8格式打开。