Engineering

Go 性能入门：基准测试、pprof 和先测量再优化

本文讲解 Go 基准测试、benchstat 思路、pprof CPU 和内存分析、常见优化误区，帮助初学者建立先测量再优化的性能习惯。

Leeting Yan 2020-03-29 4 分钟阅读 1665 字

性能优化最怕凭感觉

Go 运行速度通常不错，但这不意味着所有 Go 代码天然高效。字符串拼接、JSON 编码、数据库查询、锁竞争、内存分配、网络超时，都可能成为瓶颈。初学者常见问题不是不会优化，而是太早优化，或者凭感觉优化。结果代码变复杂了，性能却没变好。

Go 工具链提供了很好的性能分析基础：testing 包可以写基准测试，go test -bench 可以测函数耗时和分配，pprof 可以分析 CPU 和内存热点。入门阶段不需要成为性能专家，但应该养成“先测量，再修改，再验证”的习惯。

这篇文章用字符串构造和文本统计作为例子，讲解基准测试和 pprof 的基本用法。目标是建立方法，而不是背诵优化技巧。

第一个 Benchmark

假设有一个函数拼接标签：

func JoinTags(tags []string) string {
	result := ""
	for i, tag := range tags {
		if i > 0 {
			result += ","
		}
		result += tag
	}
	return result
}

测试文件里写 benchmark：

func BenchmarkJoinTags(b *testing.B) {
	tags := []string{"Go", "Backend", "Tutorial", "HTTP", "Database"}

	for i := 0; i < b.N; i++ {
		_ = JoinTags(tags)
	}
}

运行：

go test -bench=. ./...

输出类似：

BenchmarkJoinTags-8    1000000    1200 ns/op

b.N 由测试框架自动调整，确保结果有统计意义。你不要自己决定循环次数。

查看内存分配：

go test -bench=. -benchmem ./...

可能看到：

1200 ns/op    240 B/op    8 allocs/op

B/op 是每次操作分配字节数，allocs/op 是每次操作分配次数。很多 Go 性能问题都和不必要分配有关。

优化前先写对照

用 strings.Builder 改写：

func JoinTagsBuilder(tags []string) string {
	var b strings.Builder
	for i, tag := range tags {
		if i > 0 {
			b.WriteString(",")
		}
		b.WriteString(tag)
	}
	return b.String()
}

增加 benchmark：

func BenchmarkJoinTagsBuilder(b *testing.B) {
	tags := []string{"Go", "Backend", "Tutorial", "HTTP", "Database"}

	for i := 0; i < b.N; i++ {
		_ = JoinTagsBuilder(tags)
	}
}

再跑：

go test -bench=. -benchmem ./...

如果 Builder 版本确实减少了分配和耗时，再考虑替换。否则不要因为“听说 Builder 更快”就改。短字符串、少量拼接时，简单写法可能已经足够。

性能优化要看场景。为了一个不在热点路径上的函数牺牲可读性，通常不值得。

避免 Benchmark 被编译器优化掉

如果 benchmark 的结果完全没用，编译器可能优化掉部分计算。常见做法是把结果赋给包级变量：

var sink string

func BenchmarkJoinTags(b *testing.B) {
	tags := []string{"Go", "Backend", "Tutorial"}

	for i := 0; i < b.N; i++ {
		sink = JoinTags(tags)
	}
}

这样结果逃到包级变量，编译器更难把调用整体删除。入门阶段不需要过度担心，但如果 benchmark 结果小得不合理，就要检查是否被优化。

pprof CPU 分析

生成 CPU profile：

go test -bench=BenchmarkAnalyze -cpuprofile cpu.out ./textstat

查看：

go tool pprof cpu.out

进入交互后常用命令：

top
list FunctionName
web

top 看最耗 CPU 的函数，list 看函数内具体行，web 生成调用图。如果本机没有图形工具，top 和 list 已经很有用。

也可以对运行中的 HTTP 服务挂 pprof。导入：

import _ "net/http/pprof"

启动调试服务：

go func() {
	log.Println(http.ListenAndServe("localhost:6060", nil))
}()

访问：

go tool pprof http://localhost:6060/debug/pprof/profile?seconds=30

生产环境暴露 pprof 要非常谨慎，通常只绑定本地地址或放在受控内网，不要公开到互联网。

内存分析

生成内存 profile：

go test -bench=BenchmarkAnalyze -memprofile mem.out ./textstat
go tool pprof mem.out

查看分配热点：

top

内存优化常见方向包括减少临时切片、复用 buffer、避免不必要字符串转换、预分配切片容量。

例如：

items := make([]string, 0, len(input))
for _, value := range input {
	if value != "" {
		items = append(items, value)
	}
}

如果你知道最多会追加多少元素，预分配容量能减少扩容。可读性也不错。但不要为了省一点点分配写出复杂对象池。对象池适合高频、大对象、热点路径，普通业务代码不需要急着用。

性能优化的常见误区

第一，忽略 I/O。很多 Web 服务慢不是 Go 函数慢，而是数据库查询慢、外部 HTTP 慢、锁等待多。先看整体耗时，再看代码热点。

第二，过早优化。一个每天跑一次的脚本，没必要为了减少几次分配写复杂代码。性能优化要服务实际目标。

第三，只看单次 benchmark。机器负载、CPU 调度、缓存状态都会影响结果。重要优化最好多跑几次，比较趋势。

第四，优化后不保留测试。性能优化可能改变行为。先有单元测试保证正确性，再改实现更稳。

第五，牺牲清晰边界。把所有代码揉在一起可能快一点，但维护成本很高。除非热点非常明确，否则不要破坏结构。

小结

Go 性能入门的核心方法是：先测量，再优化，再验证。基准测试用 BenchmarkXxx 和 go test -bench，内存分配看 -benchmem，CPU 和内存热点用 pprof。不要凭感觉判断瓶颈，也不要因为某个技巧“看起来高级”就到处使用。

常见可读优化包括预分配切片、使用 strings.Builder 做大量字符串拼接、减少重复解析、避免在循环里创建昂贵对象。更复杂的优化应该建立在 profile 证据上。

性能好的 Go 程序不是靠一堆技巧堆出来的，而是靠清楚结构、合理 I/O、明确超时、可靠测量和少量针对热点的改进。入门阶段先把这套工作方式学会，比记住十个优化偏方更有价值。

继续阅读

探索更多技术文章

浏览归档，发现更多关于系统设计、工具链和工程实践的内容。

全部文章返回首页