Java字符串转码
目录
Java字符串转码
本人才疏学浅,如有错误,敬请指正
文章目录
前言
Java在Windows中文版系统上的默认编码是GBK,而在Linux上默认编码是UTF-8,两种编码都支持中文,但是在两平台通信的过程中如果出现中文很可能就会乱码,当然,可以把默认编码改为UTF-8,但是这是治标不治本的做法,总会遇到GBK的
转码原理:
用getBytes()方法以UTF-8解码原本编码为GBK的字符串,使得原本2byte一位的汉字被转换为3byte一位的UTF8编码表示。
然后用String的(byte[],charset)方法,以UTF8编码重新简历字符串。
一、Java的编码
Java在编译过程中以Unicode形式存储字符;
在程序里创建字符串的时候,字符串还没有被编码,直到输入输出时,字符串才会被以系统默认编码写入 或 以特定编码输出。
二、字符串转换类
代码如下:
向类方法传入待转码的字符串,返回值为
import java.io.UnsupportedEncodingException;
public class ArcoEncoding {
public static void getBinary(String str) {
int length = 0;
String bstr;
for(byte b:str.getBytes()){
bstr = Integer.toBinaryString((b & 0xFF) + 0x100).substring(1);
System.out.print(bstr+" ");
length++;
}
System.out.println("|binary|"+length+" bit "+str);
}
public static void getBinary(byte[] barray) {
int i;
String bstr;
for(i = 0; i <barray.length; i++){
bstr = Integer.toBinaryString((barray[i] & 0xFF) + 0x100).substring(1);
System.out.print(bstr+" ");
}
System.out.println("|bit array|length:"+barray.length+" bit");
}
public static byte[] toUTF8byte(String str) throws UnsupportedEncodingException {
byte[] utf8byte;
utf8byte = str.getBytes("UTF-8");
return utf8byte;
}
public static String toUTF8str(String str) throws UnsupportedEncodingException {
byte[] utf8byte;
String utf8str;
utf8byte = str.getBytes("UTF-8");
utf8str = new String(utf8byte,"UTF-8");
return utf8str;
}
}
三、测试
测试代码如下:
运行代码,向控制台输入“中文转换”(其他的也行,测试图片里面输入的是“中文转换”)
然后会输出转码结果,以及转换过程中的二进制编码
//因为这里调用了ArcoEncoding类的方法,要把上面那个ArcoEncoding类也加到同一个包下才能运行
import java.io.BufferedReader;
import java.io.InputStreamReader;
public class Test {
public static void main(String args[]) throws Exception{
String str = "";
byte[] codedarray;
String codedstr = "";
BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
str = br.readLine();
System.out.print("原编码(二进制):");
ArcoEncoding.getBinary(str);//binary out
codedarray = ArcoEncoding.toUTF8byte(str);
System.out.print("转码结果(二进制):");
ArcoEncoding.getBinary(codedarray);//binary out
codedstr = ArcoEncoding.toUTF8str(str);
System.out.print("转码结果(字符串):"+codedstr);
}
}
转码的测试结果:
总结
实现了GBK编码到UTF-8编码的转换,而且没有特别指定是GBK转UTF8,我觉得其他被UTF8兼容的编码都可以用这个类的方法来转换。