golang

性能优化：让 Go 程序飞起来

学习 Go 的性能优化技巧，掌握 profiling、benchmark 和常见的优化策略

Leeting Yan 2021-03-29 5 分钟阅读 2246 字

性能优化：让 Go 程序飞起来

Go 语言本身就很快，但"快"是没有上限的。当你的应用面临高并发、大数据量或严格延迟要求时，性能优化就变得至关重要。

今天我们就来学习如何分析和优化 Go 程序的性能。

基准测试（Benchmark）

在优化之前，我们需要先测量性能。Go 的 testing 包提供了基准测试功能：

package main

import (
	"strings"
	"testing"
)

// 要测试的函数
func Concat1(strs []string) string {
	result := ""
	for _, s := range strs {
		result += s
	}
	return result
}

func Concat2(strs []string) string {
	return strings.Join(strs, "")
}

// 基准测试
func BenchmarkConcat1(b *testing.B) {
	strs := make([]string, 100)
	for i := range strs {
		strs[i] = "hello"
	}
	
	b.ResetTimer()  // 重置计时器，排除准备工作的时间
	
	for i := 0; i < b.N; i++ {
		Concat1(strs)
	}
}

func BenchmarkConcat2(b *testing.B) {
	strs := make([]string, 100)
	for i := range strs {
		strs[i] = "hello"
	}
	
	b.ResetTimer()
	
	for i := 0; i < b.N; i++ {
		Concat2(strs)
	}
}

运行基准测试：

go test -bench=. -benchmem

输出示例：

BenchmarkConcat1-8   	   10000	    123456 ns/op	  456789 B/op	     100 allocs/op
BenchmarkConcat2-8   	  500000	      2345 ns/op	    1024 B/op	       1 allocs/op

解读：

10000：执行次数
123456 ns/op：每次操作耗时（纳秒）
456789 B/op：每次操作分配的字节数
100 allocs/op：每次操作的内存分配次数

Profiling 工具

pprof

Go 内置了强大的性能分析工具 pprof：

package main

import (
	"net/http"
	_ "net/http/pprof"  // 自动注册 pprof 处理器
)

func main() {
	go func() {
		// 你的业务逻辑
		for {
			doSomething()
		}
	}()
	
	// 启动 pprof 服务器
	http.ListenAndServe(":6060", nil)
}

访问 pprof：

# CPU 分析（30秒）
go tool pprof http://localhost:6060/debug/pprof/profile?seconds=30

# 内存分析
go tool pprof http://localhost:6060/debug/pprof/heap

# Goroutine 分析
go tool pprof http://localhost:6060/debug/pprof/goroutine

# 阻塞分析
go tool pprof http://localhost:6060/debug/pprof/block

# 互斥锁分析
go tool pprof http://localhost:6060/debug/pprof/mutex

使用 pprof CLI

# 进入交互式模式
go tool pprof cpu.prof

# 常用命令
(pprof) top           # 显示最耗时的函数
(pprof) top -cum      # 按累计时间排序
(pprof) list FuncName # 查看函数详情
(pprof) web           # 生成 SVG 图（需要 graphviz）
(pprof) png           # 生成 PNG 图

在代码中使用 pprof

package main

import (
	"os"
	"runtime/pprof"
)

func main() {
	// CPU profiling
	f, _ := os.Create("cpu.prof")
	pprof.StartCPUProfile(f)
	defer pprof.StopCPUProfile()
	
	// 你的代码
	doWork()
	
	// 内存 profiling
	memF, _ := os.Create("mem.prof")
	pprof.WriteHeapProfile(memF)
	memF.Close()
}

常见性能问题

1. 字符串拼接

// ❌ 慢：每次拼接都分配新内存
func slowConcat(strs []string) string {
	result := ""
	for _, s := range strs {
		result += s
	}
	return result
}

// ✅ 快：使用 strings.Builder
func fastConcat(strs []string) string {
	var builder strings.Builder
	for _, s := range strs {
		builder.WriteString(s)
	}
	return builder.String()
}

// ✅ 快：使用 strings.Join
func fastConcat2(strs []string) string {
	return strings.Join(strs, "")
}

2. 切片预分配

// ❌ 慢：频繁扩容
func slowAppend(n int) []int {
	var result []int
	for i := 0; i < n; i++ {
		result = append(result, i)
	}
	return result
}

// ✅ 快：预分配容量
func fastAppend(n int) []int {
	result := make([]int, 0, n)
	for i := 0; i < n; i++ {
		result = append(result, i)
	}
	return result
}

3. Map 预分配

// ❌ 慢：频繁扩容
func slowMap(n int) map[int]int {
	m := make(map[int]int)
	for i := 0; i < n; i++ {
		m[i] = i * 2
	}
	return m
}

// ✅ 快：预分配容量
func fastMap(n int) map[int]int {
	m := make(map[int]int, n)
	for i := 0; i < n; i++ {
		m[i] = i * 2
	}
	return m
}

4. 避免不必要的内存分配

// ❌ 每次调用都分配新切片
func processSlow(data []int) []int {
	result := make([]int, len(data))
	for i, v := range data {
		result[i] = v * 2
	}
	return result
}

// ✅ 复用切片
func processFast(data []int, result []int) {
	for i, v := range data {
		result[i] = v * 2
	}
}

// 使用 sync.Pool 复用对象
var bufferPool = sync.Pool{
	New: func() interface{} {
		return new(bytes.Buffer)
	},
}

func process() {
	buf := bufferPool.Get().(*bytes.Buffer)
	defer bufferPool.Put(buf)
	
	buf.Reset()
	// 使用 buf
}

5. 减少锁竞争

// ❌ 全局锁，竞争激烈
type Counter struct {
	mu    sync.Mutex
	value int64
}

func (c *Counter) Increment() {
	c.mu.Lock()
	c.value++
	c.mu.Unlock()
}

// ✅ 分片锁，减少竞争
type ShardedCounter struct {
	shards [16]struct {
		mu    sync.Mutex
		value int64
	}
}

func (c *ShardedCounter) Increment(id int) {
	shard := &c.shards[id%16]
	shard.mu.Lock()
	shard.value++
	shard.mu.Unlock()
}

// ✅ 使用原子操作
type AtomicCounter struct {
	value int64
}

func (c *AtomicCounter) Increment() {
	atomic.AddInt64(&c.value, 1)
}

6. 避免重复计算

// ❌ 每次调用都计算
func getExpensiveValue() int {
	time.Sleep(100 * time.Millisecond)  // 模拟耗时计算
	return 42
}

// ✅ 缓存结果
var (
	expensiveValue     int
	expensiveValueOnce sync.Once
)

func getExpensiveValueCached() int {
	expensiveValueOnce.Do(func() {
		expensiveValue = computeExpensiveValue()
	})
	return expensiveValue
}

内存优化

逃逸分析

Go 编译器会分析变量的生命周期，决定将其分配在栈上还是堆上：

go build -gcflags="-m" main.go

输出示例：

./main.go:10:6: moved to heap: x
./main.go:15:6: x does not escape

逃逸到堆上的变量会增加 GC 压力，尽量避免：

// ❌ x 逃逸到堆
func bad() *int {
	x := 10
	return &x
}

// ✅ 不逃逸
func good() int {
	x := 10
	return x
}

减少 GC 压力

// ❌ 创建大量临时对象
func processSlow(data []int) {
	for _, v := range data {
		obj := &MyStruct{Value: v}  // 每次都分配
		process(obj)
	}
}

// ✅ 复用对象
func processFast(data []int) {
	obj := &MyStruct{}
	for _, v := range data {
		obj.Value = v
		process(obj)
	}
}

并发优化

使用 Worker Pool

// ❌ 为每个任务创建 goroutine
func processSlow(tasks []Task) {
	for _, task := range tasks {
		go process(task)
	}
}

// ✅ 使用 worker pool
func processFast(tasks []Task) {
	workers := 10
	taskChan := make(chan Task, len(tasks))
	
	// 启动 workers
	for i := 0; i < workers; i++ {
		go func() {
			for task := range taskChan {
				process(task)
			}
		}()
	}
	
	// 发送任务
	for _, task := range tasks {
		taskChan <- task
	}
	close(taskChan)
}

避免 Goroutine 泄漏

// ❌ goroutine 可能永远不退出
func bad() {
	ch := make(chan int)
	go func() {
		// 如果没有人发送数据，这个 goroutine 会永远等待
		value := <-ch
		process(value)
	}()
}

// ✅ 使用 context 控制生命周期
func good(ctx context.Context) {
	ch := make(chan int)
	go func() {
		select {
		case value := <-ch:
			process(value)
		case <-ctx.Done():
			return
		}
	}()
}

实战：优化一个慢函数

让我们优化一个实际的例子：

// 原始版本：处理大量日志
func processLogsSlow(logs []string) map[string]int {
	result := make(map[string]int)
	
	for _, log := range logs {
		// 解析日志
		parts := strings.Split(log, " ")
		if len(parts) < 3 {
			continue
		}
		
		level := parts[1]
		
		// 统计
		result[level]++
	}
	
	return result
}

// 优化版本 1：预分配 map
func processLogsV1(logs []string) map[string]int {
	result := make(map[string]int, len(logs)/10)  // 预估容量
	
	for _, log := range logs {
		parts := strings.Split(log, " ")
		if len(parts) < 3 {
			continue
		}
		
		level := parts[1]
		result[level]++
	}
	
	return result
}

// 优化版本 2：避免 strings.Split
func processLogsV2(logs []string) map[string]int {
	result := make(map[string]int, len(logs)/10)
	
	for _, log := range logs {
		// 手动查找第二个空格
		firstSpace := strings.Index(log, " ")
		if firstSpace == -1 {
			continue
		}
		
		secondSpace := strings.Index(log[firstSpace+1:], " ")
		if secondSpace == -1 {
			continue
		}
		
		level := log[firstSpace+1 : firstSpace+1+secondSpace]
		result[level]++
	}
	
	return result
}

// 优化版本 3：并发处理
func processLogsV3(logs []string) map[string]int {
	workers := runtime.NumCPU()
	chunkSize := (len(logs) + workers - 1) / workers
	
	var wg sync.WaitGroup
	results := make([]map[string]int, workers)
	
	for i := 0; i < workers; i++ {
		wg.Add(1)
		go func(idx int) {
			defer wg.Done()
			
			start := idx * chunkSize
			end := start + chunkSize
			if end > len(logs) {
				end = len(logs)
			}
			
			localResult := make(map[string]int)
			for _, log := range logs[start:end] {
				firstSpace := strings.Index(log, " ")
				if firstSpace == -1 {
					continue
				}
				
				secondSpace := strings.Index(log[firstSpace+1:], " ")
				if secondSpace == -1 {
					continue
				}
				
				level := log[firstSpace+1 : firstSpace+1+secondSpace]
				localResult[level]++
			}
			
			results[idx] = localResult
		}(i)
	}
	
	wg.Wait()
	
	// 合并结果
	finalResult := make(map[string]int)
	for _, r := range results {
		for k, v := range r {
			finalResult[k] += v
		}
	}
	
	return finalResult
}

性能优化清单

测量优先：用 benchmark 和 profiling 找到瓶颈
算法优化：选择更高效的算法和数据结构
减少分配：预分配、复用对象、避免逃逸
并发处理：合理使用 goroutine 和 worker pool
缓存结果：避免重复计算
减少锁竞争：使用分片锁、原子操作、无锁数据结构
I/O 优化：使用缓冲、批量操作、异步 I/O

小结

今天我们学习了 Go 的性能优化：

基准测试：使用 testing 包测量性能
Profiling：使用 pprof 分析 CPU、内存、阻塞
常见问题：字符串拼接、切片扩容、锁竞争
内存优化：逃逸分析、减少 GC 压力
并发优化：Worker pool、避免泄漏
实战案例：优化日志处理函数

性能优化是一个持续的过程。记住：先测量，再优化；优化热点，不要过早优化。

练习时间

对一个慢函数进行 profiling，找出瓶颈并优化
实现一个高性能的 LRU 缓存
优化一个并发程序，减少锁竞争
编写基准测试，对比不同实现的性能

恭喜你完成了 Go 语言入门系列的全部 30 篇文章！🎉

从基础语法到高级特性，从并发编程到性能优化，你已经掌握了 Go 语言的核心知识。继续实践，继续学习，Go 的未来属于你！

继续阅读

探索更多技术文章

浏览归档，发现更多关于系统设计、工具链和工程实践的内容。

全部文章返回首页