1. 概述与目标
- 目标:通过跳板机统一入口,做到SSH/管理操作的集中审计与转发,满足合规与快速定位需求。
- 范围:覆盖跳板机(bastion)、业务主机、日志收集集群(ELK/Graylog)、监控(Prometheus/Grafana)和CDN/WAF层。
- 成果:实现操作日志100%入库、流量异常自动告警、重要事件10分钟内定位完成。
- 指标:日志保留90天、检索延迟<5s、审计命中率>99%。
- 要求:传输加密(TLS)、写入不可篡改存储、审计链路可回溯。
2. 体系架构设计
- 跳板机部署:负载均衡+两台热备跳板(Ubuntu 20.04,4 vCPU/8GB/100GB,公网带宽1Gbps)。
- 日志转发:跳板机本地以rsyslog或Filebeat将操作日志和auditd事件发送到ELK集群。
- 存储与索引:ELK三节点(每节点8 vCPU/32GB/1TB),日志索引分片与冷/热层分离。
- 流量监控:边界设备出口采集NetFlow/IPFIX,Prometheus抓取速率与连接数指标,Grafana展示。
- 防护链路:CDN(如Cloudflare/腾讯云CDN)+云端DDoS防护+WAF,BGP清洗策略可在高峰时启动。
3. 日志采集与转发实践
- 跳板机日志类型:SSH操作记录、sudo历史、auditd syscall、session录屏摘要与文件完整性报警。
- rsyslog示例:*.* @@elk-collector.example.com:514;RSYSLOG_SyslogProtocol23Format(转发使用TCP+TLS)。
- Filebeat示例:filebeat.inputs -> paths: ["/var/log/auth.log","/var/log/audit/audit.log"];output.elasticsearch.hosts: ["https://elk-1:9200"]。
- 日志格式:时间戳、用户名、源IP、会话ID、执行命令、退出码,示例行:2026-05-01T10:12:23Z|admin|203.0.113.5|sid=abc123|git pull|exit=0。
- 保存策略:热存30天,冷存60天,总保留90天;按平均每天10GB入库,90天约占900GB可用空间。
4. 日志审计与快速定位流程
- 告警触发:异常命令(如反弹shell)、同一账号短时间多源登录、敏感路径文件变更触发Alert。
- 初步定位:在ELK中以用户+时间范围做聚合检索,检索应<5秒返回。
- 会话还原:根据会话ID查询对应的录屏摘要与命令序列,确认是否为误操作或入侵。
- 证据导出:将审计条目导出为可见证据(包含hash),用于合规审计与法务。
- 示例日志表格(样本):
| 时间 | 用户 | 源IP | 会话ID | 命令/结果 |
| 2026-05-01 10:12:23 | admin | 203.0.113.5 | abc123 | git pull / exit=0 |
| 2026-05-01 10:14:05 | devops | 198.51.100.7 | def456 | sudo rm -rf /tmp/test / exit=1 |
5. 流量监控与异常处理
- 基线设定:业务流量日常峰值约200 Mbps,TCP连接数基线5k。阈值设置为基线的2.5倍(警报:500 Mbps,紧急:1 Gbps)。
- 监控手段:使用sFlow/NetFlow + Prometheus指标(if_bytes、conn_track),Grafana展示分钟级曲线。
- 异常响应:自动化脚本触发CDN限速或启用云端清洗,防止传入到业务机群。
- DDoS 案例数据:一次攻击峰值15 Gbps,CDN+云清洗后回落至300 Mbps,业务SLA 99.95%保持不变。
- 报表与审计:每次异常事件生成事件报告,记录启动时间、流量峰值、清洗策略与恢复时长。
6. 真实案例与配置示例
- 案例背景:某SaaS在周末被暴力登录与侧向扫描,跳板机日志记录到ELK并触发告警,定位到一台凭证被盗的运维账号。
- 定位过程:10:05第一次异常登录(203.0.113.9),10:07执行异常脚本,10:12产生大量外联流量,10:20经CDN封堵并强制重置账号。
- 配置样例(iptables简化):iptables -A INPUT -p tcp --dport 22 -m conntrack --ctstate NEW -s 203.0.113.0/24 -j ACCEPT;其他来源REJECT。
- 存储与成本估算:ELK每天10GB,90天900GB,存储成本示例:1TB SSD x3节点,预估成本约$900/月(按云服务计费)。
- 收获与建议:通过
跳板机+集中审计,事件检测从小时级缩短到10分钟内;建议实施MFA、最小权限、并对关键命令采用白名单与会话回放。
来源:跳板机 转发 日志审计与流量监控实践确保合规与问题快速定位