成本优化篇 — 云上财务官手记:国际阿里云如何从月均8万降至4.3万?

本文形式:第一人称实战复盘。所有数据已脱敏,但成本结构、优化动作、节流效果均为真实案例复现。

一、背景:为什么我们的云账单失控了?

2025年Q4,我接手了一家出海SaaS公司的云成本治理工作。当时的情况:

云厂商:国际阿里云(新加坡节点为主,少量法兰克福)

月度账单:稳定在7.8万-8.3万元人民币(含税)

业务状态DAU约12万,峰值并发约3000,非大促型业务

成本感知:无人负责,资源申请即开,从不回收

团队状态“云费用是CTO批的,不关我的事”

初步诊断:这不是技术问题,是管理问题

二、第一阶段:止血(第1个月)

目标:停止浪费,找回成本可见性。

动作1:标签强制绑定
我们规定:所有新建资源必须包含三个标签——Project(项目)、Owner(申请人)、Expiration(预计释放时间)。未打标资源由自动化脚本每天扫描并推送至运维群,连续3天未打标则自动停机

效果3周内,700+个存量资源完成补打标,12%的资源被标记为“已废弃、待释放”

动作2:僵尸资源大扫除
通过Cost Explorer和实例监控梳理出:

16台连续30天CPU平均利用率<5%的ECS(大部分是“先开着备用”的项目)

9个无人挂载的EBS数据盘

5个从未被访问的OSS低频访问桶

3个闲置的负载均衡SLB

清理结果:释放资源折合月成本1.2万元

动作3:预算告警上线
在阿里云控制台设置月度预算3万元、5万元、7万元三级告警。次月5日,当账单达到5万元时,财务、技术负责人同时收到邮件+短信。

效果:第一次让管理层在月中感知到“钱在烧”,而不是次月10号收到账单才惊呼。

第一阶段成果:月度成本从8.1万元降至6.7万元(降幅17.3%),耗时3周,人力投入约5人天。

三、第二阶段:换挡(第2-3个月)

目标:从“清理浪费”进入“结构优化”。

动作4:预付费替代按量付费
分析发现:65%的ECS实例是7×24小时稳定运行的生产实例,却采用按量付费模式。我们逐项目推进:

核心数据库、网关:购买1年期预付费实例,成本降为按量付费的7-8折;

开发测试环境:保留按量付费,但设置定时开关机(工作日晚8点关机,次日早9点开机)。

效果ECS月度成本下降31%,绝对值节省约1.1万元/月。

动作5:OSS生命周期策略强制化
数据湖团队习惯将所有日志永久保存在标准存储。我们规定:

所有日志类数据强制设置生命周期规则30天后转低频,90天后转归档,365天后自动删除。

仅用户上传的媒体文件保留标准存储,且需业务负责人书面确认。

效果:存储成本从1.4万元/月降至0.92万元/月(降幅34%)。

动作6:CDN与带宽组合优化
新加坡节点带宽费用偏高。我们做了两件事:

静态资源(图片、JS、CSS)全部接入阿里云CDN,回源流量走内网,不计入公网带宽

动态API请求保留公网,但将部分非核心API迁移至轻量应用服务器(带宽成本更低)。

效果:带宽+CDN综合成本从1.8万元/月降至1.3万元/月

第二阶段成果:月度成本从6.7万元降至4.9万元(累计降幅39.5%)。

四、第三阶段:建制(第4-6个月)

目标:让成本优化从“运动式治理”变成“日常习惯”。

动作7:推行FinOps月度复盘会
每月第一周周三下午,财务、技术、各业务线负责人强制参会。议程固定:

上月账单异常波动分析(超预算20%的项目需现场说明);

资源利用率排行榜(后10%项目陈述改进计划);

下一季度预留实例采购决策。

效果成本责任从“财务部”转移到“业务线”。某项目负责人主动提出:“我们这个API峰值不高,4核8G降配到2核4G吧,够用。”

动作8:设置“资源利用率红线”

生产环境CPU平均利用率低于20% → 降配或合并;

开发环境连续7天无CPU活动 → 自动关机

连续30天无活动 → 自动释放+邮件通知申请人

效果:资源利用率中位数从12%提升至34%,闲置资源存活周期从“数月”压缩至“数天”。

动作9:与代理重新谈判服务费结构
我们是代理渠道客户,此前服务费模式是“无固定月费,代理从资源消费中获得官方返佣”。这导致代理缺乏动力帮我们省钱——我们省得越多,他们赚得越少。

我们主动提出调整:固定月服务费3000元 + 成本节省分成(节省部分的20%作为年终奖励)。代理算了一笔账:我们年消费已从100万降至60万,按原返佣模式他收入下降;新模式下月费固定收入3.6万/年,加上节省分成,比原模式更稳定、更可预期

效果:代理从“希望你多买”变成“希望你买得聪明”。主动帮我们排查了3处冗余架构。

第三阶段成果:月度成本从4.9万元进一步降至4.3万元(累计降幅46.9%)。

写在最后

云成本优化没有终点。我们的月度成本从8.1万降至4.3万后,再也没有反弹。不是因为技术多强,而是因为建立了一套“浪费”变得显眼、让“节省”受到认可的机制。

你也可以复制这套方法。从今天下午的僵尸资源扫描开始。

如果需要更深入咨询了解可以联系全球代理上TG:jinniuge  他们在云平台领域有更专业的知识和建议,他们有国际阿里云,国际腾讯云,国际华为云,aws亚马逊,谷歌云一级代理的渠道,客服1V1服务,支持免实名、免备案、免绑卡。开通即享专属VIP优惠、充值秒到账、官网下单享双重售后支持。不懂找他们就对了。