JAVA中字符编码的原理是什么?

Python019

JAVA中字符编码的原理是什么?,第1张

编码问题存在两个方面:JVM之内和JVM之外。

1、Java文件编译后形成class

这里Java文件的编码可能有多种多样,但Java编译器会自动将这些编码按照Java文件的编码格式正确读取后产生class文件,这里的class文件编码是Unicode编码(具体说是UTF-16编码)。

因此,在Java代码中定义一个字符串:

String

s="汉字"

不管在编译前java文件使用何种编码,在编译后成class后,他们都是一样的----Unicode编码表示。

2、JVM中的编码

JVM加载class文件读取时候使用Unicode编码方式正确读取class文件,那么原来定义的String

s="汉字"在内存中的表现形式是Unicode编码。

是否显示中文,和编码无关,和maven过滤器无关,和打开config.properties这个文件使用的文本编辑器是否能够自动识别utf码有关。配置文本编码格式为utf-8,文本编辑器用uft-8标准去解码显示,当然是能够正确显示中文的啊。

/*

 * To change this license header, choose License Headers in Project Properties.

 * To change this template file, choose Tools | Templates

 * and open the template in the editor.

 */

package cn.timecd.gyhhy.mscup

import java.io.UnsupportedEncodingException

import java.nio.charset.Charset

import java.util.Arrays

import java.util.logging.Level

import java.util.logging.Logger

/**

 * 主要涉及到 String 类的 getBytes 方法

 * @author 32798

 */

public class Test {

    public static void main(String[] args){

        // 预定义常量

        String charset = "gbk"// 编码

        

        // 请注意,找不到编码集的时候,下面这句代码 会抛出

        // java.nio.charset.UnsupportedCharsetException

        Charset charset$ = Charset.forName(charset) // 获取编码集

        // 只是阅读: 两个 变量名字 比较, 请注意区分

        // charset

        // charset$

        

        // 从 string 转 bytes

        String str = "这是一个测试文本"

        try {

            // 方法一: 直接通过 编码集的名字 转码

            // 需要 try-catch

            // 当字符集找不到时会抛出 java.io.UnsupportedEncodingException

            System.out.println(Arrays.toString(str.getBytes(charset)))

        } catch (UnsupportedEncodingException ex) {

            Logger.getLogger(Test.class.getName()).log(Level.SEVERE, null, ex)

        }

        // 方法二: 通过 编码集(java.nio.charset.Charset) 转码

        // 不需要 try-catch

        System.err.println(Arrays.toString(str.getBytes(charset$)))

        try {

            Thread.sleep(200) // 只是为了让 ide 能按顺序输出

        } catch (InterruptedException ex) {}

        

        // 从bytes 转 string

        //byte[] bytes = {-78, -35, -60, -32, -62, -19}

        byte[] bytes = str.getBytes(charset$)// 只是为了获取测试文本的 gbk 码

        System.out.print("\n\n\n") // 隔出3行, 免得跟之前的输出混淆

        try {

            // 方法一: 通过 编码集名字 新建一个 string

            // 需要 try-catch

            // 当字符集找不到时会抛出 java.io.UnsupportedEncodingException

            System.out.println(new String(bytes, charset))

        } catch (UnsupportedEncodingException ex) {

            Logger.getLogger(Test.class.getName()).log(Level.SEVERE, null, ex)

        }

        // 方法二: 直接通过 字符集 新建一个 string

        System.err.println(new String(bytes, charset$))

    }

}