Go
语言自带的 unsafe
包的高级用法, 顾名思义,unsafe
是不安全的。Go
将其定义为这个包名,也是为了让我们尽可能地不使用它。不过虽然不安全,它也有优势,那就是可以绕过 Go
的内存安全机制,直接对内存进行读写。所以有时候出于性能需要,还是会冒险使用它来对内存进行操作。
1. 指针类型转换
Go
是一门强类型的静态语言。强类型意味着一旦定义了,类型就不能改变;静态意味着类型检查在运行前就做了。同时出于安全考虑,Go
语言是不允许两个指针类型进行转换的。
我们一般使用 *T
作为一个指针类型,表示一个指向类型 T
变量的指针。为了安全的考虑,两个不同的指针类型不能相互转换,比如 *int
不能转为 *float64
。
我们来看下面的代码:
func main() {
i:= 10
ip:=&i
var fp *float64 = (*float64)(ip)
fmt.Println(fp)
}
这个代码在编译的时候,会提示
cannot convert ip (type * int) to type * float64
也就是不能进行强制转型。那如果还是需要转换呢?这就需要使用 unsafe
包里的 Pointer
了。
unsafe.Pointer
是一种特殊意义的指针,可以表示任意类型的地址,类似 C
语言里的 void*
指针,是全能型的。
正常情况下,*int
无法转换为 *float64
,但是通过 unsafe.Pointer
做中转就可以了。在下面的示例中,通过 unsafe.Pointer
把 *int
转换为 *float64
,并且对新的 *float64
进行 3 倍的乘法操作,你会发现原来变量 i 的值也被改变了,变为 30。
func main() {
i := 10
ip := &i
var fp *float64 = (*float64)(unsafe.Pointer(ip))
*fp = *fp * 3
fmt.Println(*ip) // 30
}
说明通过 unsafe.Pointer
这个万能的指针,我们可以在 *T
之间做任何转换。那么 unsafe.Pointer
到底是什么?为什么其他类型的指针可以转换为 unsafe.Pointer
呢?这就要看 unsafe.Pointer
的源代码定义了,如下所示:
// ArbitraryType is here for the purposes of documentation
// only and is not actually part of the unsafe package.
// It represents the type of an arbitrary Go expression.
type ArbitraryType int
type Pointer *ArbitraryType
按 Go
语言官方的注释,ArbitraryType
可以表示任何类型(这里的 ArbitraryType
仅仅是文档需要,不用太关注它本身,只要记住可以表示任何类型即可)。 而 unsafe.Pointer
又是 *ArbitraryType
,也就是说 unsafe.Pointer
是任何类型的指针,也就是一个通用型的指针,足以表示任何内存地址。
2. uintptr 指针类型
uintptr
也是一种指针类型,它足够大,可以表示任何指针。它的类型定义如下所示:
// uintptr is an integer type that is large enough
// to hold the bit pattern of any pointer.
type uintptr uintptr
既然已经有了 unsafe.Pointer
,为什么还要设计 uintptr
类型呢?这是因为 unsafe.Pointer
不能进行运算,比如不支持 +(加号)运算符操作,但是 uintptr
可以。通过它,可以对指针偏移进行计算,这样就可以访问特定的内存,达到对特定内存读写的目的,这是真正内存级别的操作。
在下面的代码中,通过指针偏移修改 struct
结构体内的字段为例,演示 uintptr
的用法。
func main() {
p := new(person)
//Name是person的第一个字段不用偏移,即可通过指针修改
pName := (*string)(unsafe.Pointer(p))
*pName = "wohu"
//Age并不是person的第一个字段,所以需要进行偏移,这样才能正确定位到Age字段这块内存,才可以正确的修改
pAge := (*int)(unsafe.Pointer(uintptr(unsafe.Pointer(p)) + unsafe.Offsetof(p.Age)))
*pAge = 20
fmt.Printf("p is %#v", *p) // p is main.person{Name:"wohu", Age:20}
}
type person struct {
Name string
Age int
}
这个示例不是通过直接访问相应字段的方式对 person
结构体字段赋值,而是通过指针偏移找到相应的内存,然后对内存操作进行赋值。
下面详细介绍操作步骤。
-
先使用
new
函数声明一个*person
类型的指针变量p
。 -
然后把
*person
类型的指针变量p
通过unsafe.Pointer
,转换为*string
类型的指针变量pName
。 -
因为
person
这个结构体的第一个字段就是string
类型的Name
,所以pName
这个指针就指向Name
字段(偏移为 0),对pName
进行修改其实就是修改字段Name
的值。 -
因为
Age
字段不是person
的第一个字段,要修改它必须要进行指针偏移运算。所以需要先把指针变量p
通过unsafe.Pointe
r 转换为uintptr
,这样才能进行地址运算。
既然要进行指针偏移,那么要偏移多少呢?这个偏移量可以通过函数 unsafe.Offsetof
计算出来,该函数返回的是一个 uintptr
类型的偏移量,有了这个偏移量就可以通过 + 号运算符获得正确的 Age
字段的内存地址了,也就是通过 unsafe.Pointer
转换后的 *int
类型的指针变量 pAge
。
然后需要注意的是,如果要进行指针运算,要先通过 unsafe.Pointer
转换为 uintptr
类型的指针。指针运算完毕后,还要通过 unsafe.Pointer
转换为真实的指针类型(比如示例中的 *int
类型),这样可以对这块内存进行赋值或取值操作。
- 有了指向字段
Age
的指针变量pAge
,就可以对其进行赋值操作,修改字段Age
的值了。
这个示例主要是为了讲解 uintptr
指针运算,所以一个结构体字段的赋值才会写得这么复杂,如果按照正常的编码,以上示例代码会和下面的代码结果一样。
func main() {
p :=new(person)
p.Name = "wohu"
p.Age = 20
fmt.Println(*p)
}
指针运算的核心在于它操作的是一个个内存地址,通过内存地址的增减,就可以指向一块块不同的内存并对其进行操作,而且不必知道这块内存被起了什么名字(变量名)。
3. 指针转换规则
你已经知道 Go
语言中存在三种类型的指针,它们分别是:常用的 *T
、unsafe.Pointer
及 uintptr
。通过以上示例讲解,可以总结出这三者的转换规则:
- 任何类型的
*T
都可以转换为unsafe.Pointer
; unsafe.Pointer
也可以转换为任何类型的*T
;unsafe.Pointer
可以转换为uintptr
;uintptr
也可以转换为unsafe.Pointer
;
可以发现,unsafe.Pointer
主要用于指针类型的转换,而且是各个指针类型转换的桥梁。uintptr
主要用于指针运算,尤其是通过偏移量定位不同的内存。
4. unsafe.Sizeof
Sizeof
函数可以返回一个类型所占用的内存大小,这个大小只与类型有关,和类型对应的变量存储的内容大小无关,比如 bool
型占用一个字节、int8
也占用一个字节。
通过 Sizeof
函数你可以查看任何类型(比如字符串、切片、整型)占用的内存大小,示例代码如下:
func main() {
fmt.Println(unsafe.Sizeof(true)) // 1
fmt.Println(unsafe.Sizeof(int8(0))) // 1
fmt.Println(unsafe.Sizeof(int16(0))) // 2
fmt.Println(unsafe.Sizeof(int32(0))) // 4
fmt.Println(unsafe.Sizeof(int64(0))) // 8
fmt.Println(unsafe.Sizeof(int(0))) // 8
fmt.Println(unsafe.Sizeof(string("张三"))) // 16
fmt.Println(unsafe.Sizeof([]string{"李四", "张三"})) // 24
}
对于整型来说,占用的字节数意味着这个类型存储数字范围的大小,比如 int8
占用一个字节,也就是 8bit
,所以它可以存储的大小范围是 -128~~127
,也就是 −2^(n-1)
到 2^(n-1)−1
。其中 n
表示 bit
,int8
表示 8bit
,int16
表示 16bit
,以此类推。
对于和平台有关的 int
类型,要看平台是 32 位还是 64 位,会取最大的。比如我自己测试以上输出,会发现 int
和 int64
的大小是一样的,因为我用的是 64 位平台的电脑。
小提示:一个 struct
结构体的内存占用大小,等于它包含的字段类型内存占用大小之和。
总结:
unsafe
包里最常用的就是 Pointer
指针,通过它可以让你在 *T
、uintptr
及 Pointer
三者间转换,从而实现自己的需求,比如零内存拷贝或通过 uintptr
进行指针运算,这些都可以提高程序效率。
unsafe
包里的功能虽然不安全,但的确很香,比如指针运算、类型转换等,都可以帮助我们提高性能。不过我还是建议尽可能地不使用,因为它可以绕开 Go
语言编译器的检查,可能会因为你的操作失误而出现问题。当然如果是需要提高性能的必要操作,还是可以使用,比如 []byte
转 string
,就可以通过 unsafe.Pointer
实现零内存拷贝。
5. uintptr 和 unsafe.Pointer 的区别
unsafe.Pointer
只是单纯的通用指针类型,用于转换不同类型指针,它不可以参与指针运算;- 而
uintptr
是用于指针运算的,GC
不把uintptr
当指针,也就是说uintptr
无法持有对象,uintptr
类型的目标会被回收; unsafe.Pointer
可以和 普通指针 进行相互转换;unsafe.Pointer
可以和uintptr
进行相互转换;
package main
import (
"fmt"
"unsafe"
)
type W struct {
b int32
c int64
}
func main() {
var w *W = new(W)
//这时w的变量打印出来都是默认值0,0
fmt.Println(w.b, w.c)
//现在我们通过指针运算给b变量赋值为10
b := unsafe.Pointer(uintptr(unsafe.Pointer(w)) + unsafe.Offsetof(w.b))
*((*int)(b)) = 10
//此时结果就变成了10,0
fmt.Println(w.b, w.c)
}
uintptr(unsafe.Pointer(w))
获取了w
的指针起始值;unsafe.Offsetof(w.b)
获取b
变量的偏移量;- 两个相加就得到了
b
的地址值,将通用指针Pointer
转换成具体指针((*int)(b))
,通过*
符号取值,然后赋值。*((*int)(b))
相当于把(*int)(b)
转换成int
了,最后对变量重新赋值成 10,这样指针运算就完成了。