腾讯云服务器运维实战

购买一台腾讯云服务器只需要几分钟,但如何让它稳定、高效、安全地运行,才是运维工作的核心。很多新手买了服务器后,面对黑乎乎的终端窗口不知所措;一些企业虽然上了云,但运维方式仍停留在“手工时代”,效率低下且容易出错。本文将系统介绍腾讯云服务器的日常运维技巧,从初始化配置到自动化运维,助你成为一名合格的云端运维工程师。

一、服务器初始化最佳实践

1.1 系统登录后的第一件事

当你通过SSH第一次登录到新创建的Linux服务器时,建议按以下顺序完成初始化配置:

更新系统包

bash

复制下载

# Ubuntu/Debiansudo apt update && sudo apt upgrade -y# CentOS/Rockysudo yum update -y

创建普通用户并赋予sudo权限

bash

复制下载

# 创建用户sudo adduser opsuser# 添加到sudo组sudo usermod -aG sudo opsuser  # Ubuntu# 或sudo usermod -aG wheel opsuser  # CentOS

配置SSH密钥登录(如果创建时未使用密钥)

bash

复制下载

# 在本地生成密钥对ssh-keygen -t rsa -b 4096 -f ~/.ssh/tencent-cloud# 将公钥上传到服务器ssh-copy-id -i ~/.ssh/tencent-cloud.pub opsuser@服务器IP

修改SSH配置禁用密码登录和root登录

bash

复制下载

sudo vi /etc/ssh/sshd_config# 修改以下配置PasswordAuthentication noPermitRootLogin no# 重启SSH服务sudo systemctl restart sshd

1.2 配置主机名和时区

bash

复制下载

# 设置主机名sudo hostnamectl set-hostname web01-prod# 设置时区为上海sudo timedatectl set-timezone Asia/Shanghai# 查看时间状态timedatectl status

1.3 配置基础防火墙

使用腾讯云安全组的同时,建议在操作系统层面也配置防火墙作为第二道防线:

bash

复制下载

# Ubuntu使用UFWsudo ufw allow 22/tcp    # SSHsudo ufw allow 80/tcp    # HTTPsudo ufw allow 443/tcp   # HTTPSsudo ufw enable# CentOS使用firewalldsudo firewall-cmd --permanent --add-service=sshsudo firewall-cmd --permanent --add-service=httpsudo firewall-cmd --permanent --add-service=httpssudo firewall-cmd --reload

 image.png

二、日常监控与告警设置

2.1 使用腾讯云监控

腾讯云提供免费的云监控服务,无需在实例内安装额外Agent即可采集基础指标。但如需更细粒度的监控(如进程级、磁盘使用率等),建议安装云监控Agent。

安装云监控Agent(以Linux为例):

bash

复制下载

# 一键安装命令(从腾讯云控制台获取)wget -qO- https://monitor-agent.tencent.com/install.sh | bash

2.2 关键监控指标设置

建议为以下指标设置告警规则:

指标

告警阈值

作用

CPU使用率

>85% 持续5分钟

发现计算瓶颈

内存使用率

>90% 持续5分钟

发现内存泄漏或不足

磁盘使用率

>85%

及时清理或扩容

磁盘Inode使用率

>90%

防止小文件过多导致无法写入

公网出带宽

接近购买带宽上限

防止带宽跑满影响业务

TCP连接数

突增

可能遭受攻击或流量激增

2.3 配置告警通道

在腾讯云监控控制台,可以设置多种告警接收方式:

短信(实时,适合紧急告警)

邮件(适合非紧急告警)

微信(通过腾讯云助手)

企业微信/钉钉Webhook(通过云监控的webhook功能)

2.4 使用云顾问

腾讯云顾问(Cloud Advisor)会定期扫描你的云资源,提供安全、性能、成本、可靠性四个维度的优化建议,相当于一个免费的云上运维专家-5

 image.png

三、性能优化技巧

3.1 精准选择实例规格

选择实例时,最常见的误区是“以大为优”。其实,实例规格并非越大越好,而是要匹配实际需求-5

实践技巧

按需求选择实例:利用腾讯云的实例推荐器工具,输入业务负载特点,获取推荐规格

定期调整规格:通过监控工具查看实例的CPU、内存使用率,如果长期低于50%,考虑降级到更小规格

3.2 存储性能优化

选择合适的云盘类型:性能要求不高的场景可以选择HDD云盘降低成本,数据库等高频读写场景选择SSD或增强型SSD

开启预读功能:对于顺序读为主的业务(如视频点播),开启预读可大幅提升性能

使用文件系统优化:挂载数据盘时选择适合的挂载参数(如noatime)减少磁盘写入

3.3 内核参数调优

对于高并发Web应用,可以调整以下内核参数(在/etc/sysctl.conf中):

bash

复制下载

# 增加文件句柄数fs.file-max = 1000000# 优化TCP连接net.ipv4.tcp_tw_reuse = 1net.ipv4.tcp_fin_timeout = 30net.core.somaxconn = 1024# 生效sysctl -p

3.4 使用CDN加速静态资源

对于图片、CSS、JS等静态资源,使用腾讯云CDN可以显著降低源站压力,同时提升用户访问速度。CDN流量费用通常低于公网直接访问-5

四、自动化运维实践

4.1 使用定时任务实现自动化

案例:非工作时间自动关停开发环境

腾讯云提供了自动化管理工具,可以设置非工作时间关闭闲置资源,减少不必要的费用支出-5

使用腾讯云函数(SCF)实现定时关机-5

python

复制下载

import jsonfrom tencentcloud.common import credentialfrom tencentcloud.cvm.v20170312 import cvm_client, modelsdef stop_instances(event, context):    cred = credential.Credential("Your_SecretId", "Your_SecretKey")    client = cvm_client.CvmClient(cred, "ap-guangzhou")        request = models.StopInstancesRequest()    params = '{"InstanceIds":["ins-xxxxxxxx"]}'    request.from_json_string(params)        response = client.StopInstances(request)    print(response.to_json_string())

4.2 使用弹性伸缩应对流量波动

针对流量波动大的业务(如电商促销活动),弹性伸缩是降低成本的法宝。通过配置自动扩容和缩容策略,可以在业务高峰时动态增加实例,在低谷时自动释放资源-5

实践技巧-5

结合监控指标设置触发策略:根据CPU利用率或网络流量动态调整实例数量

预热实例:针对访问激增的场景,可以提前启动一部分实例以应对突发流量

4.3 定时任务的伸缩策略

腾讯云的弹性伸缩支持定时任务,可以设置每天固定时间扩容、缩容-8

例如:某休闲类网站20:00-24:00是访问高峰,可以配置-8

20:00扩容:增加1台按量计费CVM

24:00缩容:释放临时增加的CVM

这样,基础负载用包年包月实例,高峰负载用按量实例,整体成本可节省30%左右-8

4.4 使用运维编排OOS

腾讯云运维编排(OOS)可以将多个操作编排成一个模板,实现自动化运维。例如:

批量重启多台服务器

定期创建快照

跨地域复制镜像

 image.png

五、备份与恢复策略

5.1 云硬盘快照

快照是腾讯云CBS的备份功能,可以保存某个时间点的磁盘数据。建议配置自动快照策略:

系统盘:每天一次快照,保留7天

数据盘:每天一次快照,保留30天

重要数据:同时保留手动快照(长期保存)

5.2 自定义镜像

当服务器配置好环境后,制作自定义镜像。后续创建新实例时可直接使用该镜像,省去重复配置的麻烦。

5.3 跨地域备份

对于核心业务,可以将快照复制到其他地域,实现异地容灾。在控制台选择快照,点击“跨地域复制”即可。

5.4 备份验证

定期进行备份恢复演练,确保备份数据可用。建议每季度至少演练一次。

六、故障排查常用命令

6.1 系统负载排查

bash

复制下载

# 查看系统负载tophtop  # 需要安装# 查看CPU和内存使用vmstat 1 10# 查看磁盘IOiostat -x 1

6.2 网络排查

bash

复制下载

# 查看网络连接netstat -anp | grep 80ss -tan# 测试网络延迟ping -c 10 目标IP# 路由追踪traceroute 目标IPmtr 目标IP# 查看带宽使用iftop  # 需要安装nethogs  # 按进程查看带宽

6.3 日志查看

bash

复制下载

# 系统日志journalctl -xetail -f /var/log/syslog# 应用日志(以Nginx为例)tail -f /var/log/nginx/access.logtail -f /var/log/nginx/error.log

6.4 进程排查

bash

复制下载

# 查看所有进程ps aux# 查找特定进程ps aux | grep nginx# 查看进程打开的文件lsof -p 进程PID

七、结语:从被动救火到主动预防

优秀的运维不是等出问题了再去解决,而是通过规范配置、监控预警、自动化操作,将问题消灭在萌芽状态。腾讯云提供了丰富的运维工具,从云监控到弹性伸缩,从运维编排到备份恢复,只要善加利用,完全可以构建一个稳定、高效、自动化的云端运维体系。

运维是一门实践的科学,理论再好,不如动手一试。从今天开始,对照本文的内容,逐步优化你的腾讯云服务器运维实践,让系统运行得更稳、更省、更安全。

 image.png

如果需要更深入咨询了解可以联系全球代理上TG:jinniuge  他们在云平台领域有更专业的知识和建议,他们有国际阿里云,国际腾讯云,国际华为云,aws亚马逊,谷歌云一级代理的渠道,客服1V1服务,支持免实名、免备案、免绑卡。开通即享专属VIP优惠、充值秒到账、官网下单享双重售后支持。不懂找他们就对了。