javascript中一个字符占几个字节

JavaScript016

javascript中一个字符占几个字节,第1张

一般来说英文是1个,中文是两个。但是会根据编码方式不同而不同。以下是搬运:英文字母和中文汉字在不同字符集编码下的字节数英文字母:字节数 : 1编码:GB2312字节数 : 1编码:GBK字节数 : 1编码:GB18030字节数 : 1编码:ISO-8859-1字节数 : 1编码:UTF-8字节数 : 4编码:UTF-16字节数 : 2编码:UTF-16BE字节数 : 2编码:UTF-16LE中文汉字:字节数 : 2编码:GB2312字节数 : 2编码:GBK字节数 : 2编码:GB18030字节数 : 1编码:ISO-8859-1字节数 : 3编码:UTF-8字节数 : 4编码:UTF-16字节数 : 2编码:UTF-16BE字节数 : 2编码:UTF-16LE

因为中文字占两个字节,英文占一个字节。

方法1:把中文字替换成两个字母。然后计算长度。

方法2:直接判断中文,长度+2。

运用的方法大同小异。都是通过正则表达式,写unicode编码。

方法1中

[\u4e00-\u9fa5]:匹配中文字符

[^\x0000-\x00ff]:匹配双字节字符(包括中文字)

正则表达示 /[\u4e00-\u9fa5]/g 的 g 必须要,global,全部都要检查的意思。没有的话输出的是(2333aa哈)

方法2中的函数

扩展:

//.net 支持的编码ASCII编码 System.Text.ASCIIEncoding 将字符与 ASCII 字符相互转换。多种编码 System.Text.Encoding 将字符与 Convert 方法中指定的各种编码相互转换。UTF-16 Unicode 编码 System.Text.UnicodeEncoding 在其他编码与 UTF-16 编码之间进行转换。此方案将字符表示为 16 位整数。UTF-8 Unicode 编码 System.Text.UTF8Encoding 在其他编码与 UTF-8 编码之间进行转换。此宽度可变编码方案用一至四个字节表示字符。 //.net 获取字符字节数的函数System.Text.Encoding.Default.GetByteCount("中国人abc")//6MessageBox.Show(System.Text.Encoding.GetEncoding("GB2312").GetBytes("中国人abc").Length+"")//9MessageBox.Show(System.Text.Encoding.GetEncoding("ASCII").GetBytes("中国人abc").Length + "")//6MessageBox.Show(System.Text.Encoding.GetEncoding("UTF-16").GetBytes("中国人abc").Length + "")//12MessageBox.Show(System.Text.Encoding.GetEncoding("UTF-8").GetBytes("中国人abc").Length + "")//12 //Oracle 函数select lengthb('中国人abc') vchar字节,lengthb(n'中国人abc') nchar字节,length('中国人abc') vchar长度,length(n'中国人abc') nchar长度 from dual