Game

游戏服务器玩家站内通知架构设计

从系统公告、好友邀请、奖励提醒、活动红点到客服补偿，讲解游戏服务器玩家站内通知架构，包括投递模型、去重、过期、红点聚合和离线同步。

Leeting Yan 2021-07-24 9 分钟阅读 4177 字

游戏里的通知常常被低估。公告、好友邀请、交易成交、奖励到账、活动即将结束、客服补偿，看起来都是小红点，背后却牵着多个系统。通知做得差，玩家会错过奖励、重复看到已读消息，或者每天上线被一屏弹窗劝退。站内通知架构的价值，是把“要告诉玩家一件事”变成可投递、可过期、可聚合、可追踪的服务能力。

核心判断

通知不是邮件，也不是聊天消息，它更像面向玩家体验的状态变更提示
红点应该由服务端给出可解释计数，客户端负责展示而不是推理全部业务
通知投递要支持在线实时、离线补拉和批量运营三种路径

架构示意

flowchart LR
  Source["业务事件源"] --> Normalize["通知标准化"]
  Normalize --> Dedup["去重与合并"]
  Dedup --> Inbox["玩家通知箱"]
  Inbox --> RedDot["红点聚合"]
  Inbox --> Push["在线推送"]
  Client["客户端"] --> Pull["离线补拉"]
  Pull --> Inbox
  Ops["运营批量通知"] --> Normalize

通知和邮件的边界

邮件通常承载正文、附件和较长生命周期，通知更关注及时提醒和入口跳转。把所有通知都塞进邮件，玩家会被邮箱淹没；把所有邮件都当通知，又会丢掉附件领取和审计。站内通知可以理解为轻量 inbox：每条记录包含 playerId、type、sourceId、status、priority、expireAt、payload、deepLink。payload 只放展示和跳转必要信息，真正的奖励、交易、邀请状态仍然由原业务系统维护。

事件源要标准化

不同业务都想通知玩家，但不能让每个业务自己拼客户端协议。通知服务应该接收标准事件：事件类型、目标玩家、业务来源、去重键、展示模板、跳转目标、有效期和优先级。好友邀请、拍卖成交、排行榜结算都可以转换成这个格式。这样客户端只需要理解有限类型，运营也能控制模板。标准化还有一个好处：当某类通知造成打扰时，可以在通知层限流或合并，而不是逐个改业务。

去重与合并

通知如果不去重，红点会失控。去重键可以是 type + sourceId，例如同一好友邀请只生成一条通知；合并则适合短时间大量类似事件，例如“你的 5 件商品已售出”。合并策略要小心，不要把需要玩家逐项处理的状态合并掉。常见做法是通知记录保留 summary，同时 deepLink 到业务列表。对于客服补偿这类严肃通知，宁愿不合并，也要保证可审计。

红点聚合的服务端模型

红点不是简单未读数。活动红点可能取决于可领取奖励，好友红点取决于待处理邀请，商城红点取决于限时免费礼包。客户端自己推理所有红点，会导致版本兼容困难。服务端可以维护 red dot tree：根节点是主界面入口，子节点是业务模块，每个叶子节点由业务事件或查询结果驱动。通知服务负责把 inbox 未读、业务待处理和运营提示聚合成版本化摘要，下发给客户端。

在线推送与离线补拉

在线玩家希望及时看到通知，离线玩家上线后要补齐。在线推送可以走网关连接，但推送失败不能代表通知丢失；权威状态仍然在 inbox。客户端上线后带 lastNotificationVersion 拉取增量，版本缺口过大时全量同步摘要。对弱网客户端，不要每条通知都单独推送，可以合并成 notification_changed，让客户端主动拉。这样能减少高峰期网关下行压力。

过期和撤回

通知必须有生命周期。活动结束提醒过期后没有意义，邀请被取消后要撤回，交易成交通知可能需要保留几天。过期任务不能只做物理删除，因为客户端可能还持有旧通知 id。更稳的是状态改为 expired 或 revoked，客户端下次同步时清理展示。重要通知可以归档到冷存储，普通通知可以 TTL 删除。过期策略要写进创建事件，而不是靠全局默认。

质量指标

通知系统要看投递成功率、在线推送延迟、离线补拉数量、红点版本生成耗时、重复通知率、过期清理积压、客户端点击率。产品会关心通知是否有效，技术要关心通知是否可信。好的通知架构不会追求把所有信息都推给玩家，而是确保该提醒的提醒一次，该消失的准时消失，该追责的能找到来源。

工程落地表

关注点	推荐做法	常见风险
状态边界	明确权威服务、缓存副本和可恢复事实	把运行态散落在多个服务里，故障时无法判断谁说了算
版本控制	给协议、配置、策略和数据结构都记录版本	发布后新旧逻辑交错，排查时无法复现
失败补偿	每个跨服务步骤都设计超时、重试和幂等结果	成功路径能跑通，异常路径留下脏状态
观测指标	指标贴近玩家体验，同时保留技术细分维度	只有机器指标，事故发生时不知道玩家卡在哪
演练方式	用脚本制造重试、掉线、超时、重启和版本不一致	只在测试服点几次正常流程，线上第一次遇到边界

一个可执行的落地步骤

第一步，不急着重构所有代码，而是把玩家站内通知的关键事件和状态列出来，形成一张状态表。表里至少要有事件来源、状态 owner、是否可重试、是否需要持久化、失败后谁补偿。很多团队会在这一步发现，线上所谓的随机故障其实是状态没有 owner。

第二步，先在边界处加版本和审计。即使内部实现暂时没改，只要每次请求、每次状态转换、每次跨服务调用都能留下版本、原因和结果，后续迭代就有依据。不要等事故后再补日志，那时最关键的上下文已经丢了。

第三步，挑一条高价值路径做闭环，例如登录进房、领取奖励、切换场景或活动开启。闭环要包含成功、重复、超时、失败、回滚和人工处理。只要一条路径跑通，团队就能把模式复制到其他路径。

第四步，把演练自动化。玩家站内通知的风险大多不会在正常点击里出现，而是在进程重启、网络抖动、配置切换、客户端重试、下游超时的组合里出现。自动化演练不需要一开始很复杂，能稳定复现三五个最危险场景，就已经比靠人工记忆可靠。

复盘问题清单

玩家在最差网络条件下，是否仍然能得到明确结果，而不是一直转圈？
服务重启或发布时，是否有清晰的进入、等待、迁移和退出策略？
重复请求、延迟响应和旧会话消息是否会污染新状态？
关键决策是否能通过日志复现，包括输入、版本、策略和输出？
如果下游服务短暂不可用，当前架构是保护玩家体验，还是把错误直接扩散到客户端？
运维或客服是否有安全的人工介入入口，还是只能直接改数据库？

在实际落地玩家站内通知时，团队还需要把责任边界写进代码和文档。第 1 个容易被忽略的点，是不要让临时判断散落在调用方。调用方只表达意图，平台层给出明确结果，业务层再根据结果决定是否继续。这样做看似多了一层接口，后续排查却非常省时间：日志能说明哪个版本的策略参与了决策，指标能看到哪个阶段开始变慢，回滚时也能只回滚策略而不是重启整组服务。对于游戏服务器来说，很多架构问题最终都会落到玩家体验上，稳定的边界比聪明的捷径更重要。

在实际落地玩家站内通知时，团队还需要把责任边界写进代码和文档。第 2 个容易被忽略的点，是不要让临时判断散落在调用方。调用方只表达意图，平台层给出明确结果，业务层再根据结果决定是否继续。这样做看似多了一层接口，后续排查却非常省时间：日志能说明哪个版本的策略参与了决策，指标能看到哪个阶段开始变慢，回滚时也能只回滚策略而不是重启整组服务。对于游戏服务器来说，很多架构问题最终都会落到玩家体验上，稳定的边界比聪明的捷径更重要。

在实际落地玩家站内通知时，团队还需要把责任边界写进代码和文档。第 3 个容易被忽略的点，是不要让临时判断散落在调用方。调用方只表达意图，平台层给出明确结果，业务层再根据结果决定是否继续。这样做看似多了一层接口，后续排查却非常省时间：日志能说明哪个版本的策略参与了决策，指标能看到哪个阶段开始变慢，回滚时也能只回滚策略而不是重启整组服务。对于游戏服务器来说，很多架构问题最终都会落到玩家体验上，稳定的边界比聪明的捷径更重要。

在实际落地玩家站内通知时，团队还需要把责任边界写进代码和文档。第 4 个容易被忽略的点，是不要让临时判断散落在调用方。调用方只表达意图，平台层给出明确结果，业务层再根据结果决定是否继续。这样做看似多了一层接口，后续排查却非常省时间：日志能说明哪个版本的策略参与了决策，指标能看到哪个阶段开始变慢，回滚时也能只回滚策略而不是重启整组服务。对于游戏服务器来说，很多架构问题最终都会落到玩家体验上，稳定的边界比聪明的捷径更重要。

在实际落地玩家站内通知时，团队还需要把责任边界写进代码和文档。第 5 个容易被忽略的点，是不要让临时判断散落在调用方。调用方只表达意图，平台层给出明确结果，业务层再根据结果决定是否继续。这样做看似多了一层接口，后续排查却非常省时间：日志能说明哪个版本的策略参与了决策，指标能看到哪个阶段开始变慢，回滚时也能只回滚策略而不是重启整组服务。对于游戏服务器来说，很多架构问题最终都会落到玩家体验上，稳定的边界比聪明的捷径更重要。

红点风暴的处理

通知系统上线后，最容易出现的是红点风暴。某个活动规则改动导致几百万玩家同时获得红点，客户端上线后全部拉取详情，通知服务和活动服务一起被打满。解决办法不是禁止红点，而是把红点摘要和详情解耦。主界面只需要知道某个入口是否有变化，不应该立刻拉取所有奖励明细。详情在玩家点击入口时再按页加载，并且有服务端限速。

红点还需要消抖。多个业务在一秒内连续改变同一入口时，可以合并成一个版本更新。客户端收到版本变化后拉取最新摘要，而不是逐条应用。这样玩家看到的是稳定入口，服务端也避免了无意义的重复推送。红点是体验功能，但它的流量形态非常像实时消息系统，必须按系统能力设计。

运营通知的安全边界

运营批量通知要有审批、预览、灰度和撤回。模板里的变量必须来自白名单字段，不能让运营文本直接拼接不受控 HTML 或客户端指令。大批量投递要分片执行，按服务器、玩家分层或活跃度逐步放量。撤回也要设计清楚：已读通知是否消失、已点击入口是否还能进入、已触发奖励是否受影响。通知看似轻量，一旦它能引导玩家进入活动或领取补偿，就必须具备发布系统的基本安全能力。

总结

游戏服务器玩家站内通知架构设计的重点不在于堆更多组件，而在于把状态、时间、版本和失败路径讲清楚。游戏服务器的复杂度通常不是来自单个算法，而是来自玩家行为、网络环境、运营动作和服务故障同时发生。一个可信的架构，应该让正常路径足够顺，让异常路径有边界，让每一次自动处理和人工介入都有证据可查。做到这一点，系统即使不能避免所有问题，也能把问题限制在可理解、可恢复、可继续迭代的范围内。

← 上一篇 Steam 游戏 MOD 数据加载实战：2021 年 7 月个人项目如何设计可扩展数据、校验和安全边界 下一篇 → GM 操作双人审批架构：高风险后台工具不能只靠信任

继续阅读

探索更多技术文章

浏览归档，发现更多关于系统设计、工具链和工程实践的内容。

全部文章返回首页