C语言读取UTF-8文本

Python016

C语言读取UTF-8文本,第1张

UTF-8是一种多字节编码字符集,Unicode字符,也可以是一个字节,符号:

1个字节:0XXXXXXX

2个字节:110XXXXX 10XXXXXX />3个字节: 1110XXXX 10XXXXXX 10XXXXXX

4个字节:11110xxx 10XXXXXX 10XXXXXX 10XXXXXX

本文根据上面的字符串遍历的特点来确定一个字符串是否是UTF-8编码。应当注意的是,每个字节的UTF-8字符串的值具有一定的范围,而不是所有的值?是有效的UTF-8字符,但在一般应用足够长的字符串判断的情况下,更准确,是实现比较简单。具体的字节范围,可以发现在这本书的“Unicode解释”6.4.3。

布尔IsUTF8(const void *的pbuffer的,长尺寸)

{

布尔IsUTF8 = TRUE

unsigned char型*开始=(无符号字符*)pbuffer的/无符号的char *结束=(unsigned char型)pbuffer的+大小

(起点和终点)

{

(*开始<0X80)/ /(10000000):值小于0x80的ASCII的字符

{

开始+ +

}

否则,如果(*启动<(0XC0))/ /(11000000):值吗? 0XC0之间的范围0x80无效的UTF-8字符

{

IsUTF8 = FALSE

突破

}

否则,如果(*开始(0XE0))/在2个字节的UTF-8字符/(11100000):

{

(开始>=结束 - 1)

突破

((开始[1](0XC0) )= 80H时)

{

IsUTF8 = FALSE

突破

}

开始+ = 2

}

否则,如果(*启动<(31:8))/ /(11110000):结束的3个字节的UTF-8字符

{

(“开始”>= - 2)

突破。 .. />((开始[1](为0xC0))= 0x80的| |(启动[2](为0xC0))= 80H时)

{

IsUTF8 = FALSE

休息

}

开始+ = 3

}

{

IsUTF8 = FALSE

突破

}

}

回报IsUTF8

}

UTF-UCS编码的16至16个单位。小于0x10000的UCS码,UTF-16编码是等于相应的UCS代码的16位无符号整数。对于不小于0x10000的UCS码,定义了一个算法。然而,实际使用的UCS2,或者UCS4的BMP必然小于0x10000,所以现在你可以认为UTF -16和UCS-2基本相同。 UCS-2是一种编码方案,UTF-16已被用于实际的传输,所以我们要考虑的字节顺序。

下面的Unix下函数可以会帮到你

getenv(取得环境变量内容

相关函数 putenv,setenv,unsetenv

表头文件 #include<stdlib.h>

定义函数 char * getenv(const char *name)

函数说明 getenv()用来取得参数name环境变量的内容。参数name为环境变量的名称,如果该变量存在则会返回指向该内容的指针。环境变量的格式为name=value。

返回值 执行成功则返回指向该内容的指针,找不到符合的环境变量名称则返回NULL。

范例 #include<stdlib.h>

mian()

{

char *p

if((p = getenv(“USER”)))

printf(“USER=%s\n”,p)

}

执行 USER = root

putenv(改变或增加环境变量)

相关函数 getenv,setenv,unsetenv

表头文件 #include4<stdlib.h>

定义函数 int putenv(const char * string)

函数说明 putenv()用来改变或增加环境变量的内容。参数string的格式为name=value,如果该环境变量原先存在,则变量内容会依参数string改变,否则此参数内容会成为新的环境变量。

返回值 执行成功则返回0,有错误发生则返回-1。

错误代码 ENOMEM 内存不足,无法配置新的环境变量空间。

范例 #include<stdlib.h>

main()

{

char *p

if((p = getenv(“USER”)))

printf(“USER =%s\n”,p)

putenv(“USER=test”)

printf(“USER+5s\n”,getenv(“USER”))

}

执行 USER=root

USER=root

setenv(改变或增加环境变量)

相关函数 getenv,putenv,unsetenv

表头文件 #include<stdlib.h>

定义函数 int setenv(const char *name,const char * value,int overwrite)

函数说明 setenv()用来改变或增加环境变量的内容。参数name为环境变量名称字符串。

参数 value则为变量内容,参数overwrite用来决定是否要改变已存在的环境变量。如果overwrite不为0,而该环境变量原已有内容,则原内容会被改为参数value所指的变量内容。如果overwrite为0,且该环境变量已有内容,则参数value会被忽略。

返回值 执行成功则返回0,有错误发生时返回-1。

错误代码 ENOMEM 内存不足,无法配置新的环境变量空间

范例 #include<stdlib.h>

main()

{

char * p

if((p=getenv(“USER”)))

printf(“USER =%s\n”,p)

setenv(“USER”,”test”,1)

printf(“USER=%s\n”,getenv(“USEr”))

unsetenv(“USER”)

printf(“USER=%s\n”,getenv(“USER”))

}

执行 USER = root

USER = test

USER = (null)

那你就去了解一下 UTF-8 的编码规则啊,

简单来说读取某个字节, 判断它是多字节的还是单字节的,甚至是多字节的非首字节...

如果怕是一些标点符号,再把这些标点符号的判断值加进去。