java 怎么判断编码是utf-8 还是gbk

Python021

java 怎么判断编码是utf-8 还是gbk,第1张

你是要判断字符还是判断文件的编码,若是字符:

String str="123456"

String type = "utf-8" //更换这里进行其他编码判断

try {

if (str.equals(new String(str.getBytes(type ), type ))) {

return type

}

} catch (Exception e) {

}

如果是文件,麻烦一些,可以使用一个开源项目cpdetector,这个我也没用过,你自己查一下吧

这样的测试方法是不正确的。getBytes(charset)是解码,new String(byte[], charset)是编码。new String(str.getBytes(charset),charset)是解码再编码,无论charset是什么编码格式,返回的字符串内容原始str是一致,因此equals方法都是返回true,达不到测试字符串编码格式的目的。个人观点:正确的测试姿势应该是这样的:

String charset ="xxx" //假定编码格式

String str = "中文";

boolean flag = str.equals(new String(str.getBytes(),charset))

flag为true则表明str的编码格式是假定的编码格式。其中说明str.getBytes()该方法就是按其自身编码格式去解码。其自身编码格式跟你的操作系统编码格式或你使用的IDE设置的文件的Text file encoding有关。

判断java字符串的字符集有多种方法,我们一一讨论如下:1、通过把未知编码字符串,用猜想的编码再解码,观察字符串是不是正确还原了。原理:假如目标编码没有数组中的字符,那么编码会破坏,无法还原。缺点:假如字符少,而正巧错误的猜想编码中有这种字节,就会出错。如:new String("tested str".getBytes("enc"),"enc")2、大多数时候,我们只要判断本地平台编码和utf8,utf8编码相当有规律,所以可以分析是否是utf8,否则使用本地编码。原理:分析byte[]来判断规律。缺点:有时,个别本地编码字节在utf8中也会出现,导致出错,需要分析。如:判断是否utf-8代码:public static boolean isValidUtf8(byte[] b,int aMaxCount){int lLen=b.length,lCharCount=0for(int i=0i byte lByte=b[i++]//to fast operation, ++ now, ready for the following for()if(lByte>=0) continue//>=0 is normal asciiif(lByte<(byte)0xc0 || lByte>(byte)0xfd) return falseint lCount=lByte>(byte)0xfc?5:lByte>(byte)0xf8?4:lByte>(byte)0xf0?3:lByte>(byte)0xe0?2:1if(i+lCount>lLen) return falsefor(int j=0j=(byte)0xc0) return false}return true