1.
启动与网络连通性检查
1) 检查实例状态:使用云控制台或API确认实例为running。
2) 验证SSH/远程端口:ss -ltnp | grep :22 或 netstat -plant 查看端口绑定。
3) 测试外网连通:ping 8.8.8.8 与 curl -I http://域名 检查响应头。
4) 安全组与防火墙:核对安全组规则、iptables -L、ufw status,放行必要端口。
5) 示例命令与误区:若能ping通但SSH失败,排查MTU或TCP MSS,示例修复:sudo iptables -A INPUT -p tcp --dport 22 -m conntrack --ctstate NEW -j ACCEPT。
2.
Web服务与端口冲突诊断
1) 检测进程:ps aux | grep nginx 或 systemctl status nginx 查看服务状态。
2) 端口监听:ss -ltnp | grep 80/443 确认进程PID和二进制路径。
3) 日志排查:tail -n 200 /var/log/nginx/error.log 查找 502/504 原因。
4) 配置测试:nginx -t 与重载 nginx -s reload;注意配置语法和证书路径。
5) 常见案例:某客户因 duplicate listen 导致Nginx启动失败,修复后恢复流量。
3.
磁盘、IO 与性能瓶颈定位
1) 查看磁盘使用:df -h 与 du -sh /var/log/* 找出大文件。
2) IO监控:iostat -x 1 3 或 atop/htop 查看iowait与吞吐。
3) 系统资源:free -m 查看内存,top查看CPU占用。
4) 临时扩容:云盘在线扩容示例:扩容到100GB后执行resize2fs。
5) 真实配置示例:测试机配置为4 vCPU / 8GB RAM / 100GB SSD,平均负载1.2,iowait<5%。
4.
域名、CDN与证书问题处理
1) DNS解析:dig +short 域名 A 与 CNAME 检查解析是否指向云IP或CDN。
2) CDN回源:确认回源地址为内网IP或CNAME,检查回源端口与证书。
3) TLS证书:openssl s_client -connect 域名:443 -servername 域名 验证证书链与过期时间。
4) 常见故障:证书过期、域名解析TTL未刷新或回源被防火墙阻断。
5) 案例说明:某客户使用CloudFront回源到达龙云,因回源白名单未加入CDN出口IP导致回源502,加入后恢复。
5.
DDoS防御与应急响应流程
1) 流量监控:使用云监控查看分钟带宽与连接数突增阈值。
2) 基础防护:启用云厂商DDoS基础防护与安全组限速规则。
3) 应急限流:Nginx示例limit_req_zone $binary_remote_addr zone=one:10m rate=10r/s。
4) 黑洞/清洗:在大流量事件中,协调云端清洗或启用CDN清洗服务。
5) 真实响应:案例——某站点出现10Gbps SYN洪泛,启用云清洗后5分钟内上游流量回落,业务恢复。
6.
支持服务说明与常用配置表
1) 支持级别:提供基础工单、电话支持与高级专家服务。
2) SLA示例:节点可用性保证 99.95%,故障响应承诺 30 分钟内响应(按服务协议)。
3) 日志保留:建议最低保留 30 天访问日志,安全日志 90 天。
4) 备份频率:建议业务库每日全量备份,重要数据双活/异地容灾。
5) 下面为典型服务器配置示例表格:
| 项 | 示例配置 | 说明 |
| CPU | 4 vCPU | Xeon 家族,2.5GHz |
| 内存 | 8 GB | 适用于中小型网站 |
| 磁盘 | 100 GB SSD | 建议IOPS >= 3000 |
| 带宽 | 1 Gbps 弹性 | 按峰值计费或包年 |
| 系统 | Ubuntu 20.04 | LTS,支持长期更新 |
来源:达龙云无桌面常见故障排查攻略与支持服务说明