Go语言循环遍历含有中文的字符串的方法小结
作者:m旧裤子
Go语言循环遍历含有中文字符的字符串
首先使用普通for循环遍历含有中文的字符串
str := "hello,你好" for i := 0; i < len(str); i++ { fmt.Printf("%c", str[i]) }
输出结果:
hello,ä½ å¥½
可见使用普通for循环遍历字符串中的中文字符发生了乱码。
然后我们使用Go语言中for range
str := "hello,你好" for _, v := range str { fmt.Printf("%c", v) }
输出结果:
hello,你好
可见用for range对含有中文字符的字符串进行循环遍历就不会出现乱码的问题。中文字会正常输出。
那为什么使用for循环中文字符部分会出现乱码呢?
首先我们先来看Go语言中对字符的定义
字符在Go语言中分为两种:
- 一种是unint8类型,或者叫byte型,代表了ASCII码的一个字符。
- 另一种是rune类型,代表一个UTF-8字符。当需要处理中文、日文或者其他符合字符时,则需要用到rune类型。rune类型实际是一个int32.
使用fmt.Printf中的"%T"可以输出变量的实际类型,使用这个方法可以查看byte和rune的本来类型,代码如下:
var a byte = 'a' fmt.Printf("%d %T\n", a, a) var b rune = '你' fmt.Printf("%d %T\n", b, b)
输出结果:
97 uint8
20320 int32
那普通for循环和for range两个循环出来的字符类型是什么呢?
测试:
for循环
str := "hello,你好" for i := 0; i < len(str); i++ { fmt.Printf("%c,%T ", str[i],str[i]) }
输出结果:
h,uint8
e,uint8
l,uint8
l,uint8
o,uint8
,uint8
ä,uint8
½,uint8
,uint8
å,uint8
¥,uint8
½,uint8
for range
str := "hello,你好" for _, v := range str { fmt.Printf("%c,%T \n", v, v) }
输出结果:
h,int32
e,int32
l,int32
l,int32
o,int32
,int32
你,int32
好,int32
可见,使用普通循环时,得到的类型是uint8,也就是byte类型。
使用for range循环时,得到的类型是int32,也就是rune类型。
因为使用普通for循环时,得到的类型是uint8,对应ASCII编码表,而中文字符在ASCII编码表中没有相对应的ID,那输出中文时就会出现乱码。
而在使用for range时,得到的类型时int32,对应Unicode编码表,中文字符在Unicode编码表中存在中文相对应的ID,输出正常。
总结:
- 使用普通循环时,得到的类型是uint8,对应ASCII字符集.
- 使用for range时,得到类型是int32,对应Unicode字符集.
- Go语言中byte和rune实质上就是uint8和int32类型。
到此这篇关于Go语言循环遍历含有中文的字符串的方法小结的文章就介绍到这了,更多相关Go循环遍历中文字符串内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!