Checklist bảo trì server là thứ phân biệt giữa IT admin “phòng cháy” và IT admin “chữa cháy.” Server không tự bảo trì — nếu bạn không chủ động kiểm tra, update, và optimize, một ngày nào đó bạn sẽ nhận cuộc gọi lúc 2h sáng: “Server sập rồi!” Bài viết này cung cấp checklist bảo trì đầy đủ, chia theo tần suất (tuần/tháng/quý), để bạn giữ server luôn ổn định và an toàn.
🎁 Lead magnet: Tải miễn phí Server Maintenance Calendar Template — lịch bảo trì server theo tuần/tháng/quý trên Google Calendar + Notion, tự động nhắc nhở.
Tại sao cần bảo trì server định kỳ?
Hậu quả của không bảo trì
| Sự cố | Nguyên nhân | Chi phí |
|---|
| Server bị hack | Không cập nhật security patch | 50-500 triệu VND (data breach) |
| Mất data | Backup không hoạt động (phát hiện khi cần restore) | Vô giá (nếu không recover được) |
| Website chậm dần | Disk đầy, log không rotate, cache không clear | -20% conversion |
| Server crash | RAM leak, process zombie, disk full | Downtime 2-8 giờ |
| SSL expired | Quên renew certificate | Browser hiện “Not Secure” |
Thống kê
- 60% downtime có thể ngăn được bằng bảo trì định kỳ (Ponemon Institute)
- 93% công ty mất data không có backup viable bị phá sản trong 1 năm (University of Texas)
- 57% cyberattacks khai thác vulnerabilities đã có patch nhưng chưa cài (Verizon DBIR)
Checklist hàng tuần (30-60 phút)
Thực hiện mỗi thứ 2 đầu tuần.
Security (15 phút)
| # | Task | Command/Tool | Ghi chú |
|---|
| 1 | Check security updates | apt list --upgradable (Ubuntu) | Cài critical/security updates ngay |
| 2 | Review login attempts | lastb | head -50 | Nhiều failed login = brute force |
| 3 | Check firewall rules | ufw status hoặc iptables -L | Đảm bảo chỉ mở port cần thiết |
| 4 | Review active SSH sessions | who hoặc w | Session lạ = potentially compromised |
| 5 | Check SSL certificate expiry | echo | openssl s_client -servername domain.com -connect domain.com:443 2>/dev/null | openssl x509 -noout -dates | Alert nếu <30 ngày |
| # | Task | Command/Tool | Alert threshold |
|---|
| 6 | Disk usage | df -h | >80% → cleanup ngay |
| 7 | Memory usage | free -h | >85% → investigate |
| 8 | CPU load average | uptime | >number of cores → overloaded |
| 9 | Top processes | top -bn1 | head -20 | Process dùng >50% CPU liên tục |
| 10 | Disk I/O | iostat -x 1 3 | >80% utilization → bottleneck |
Backup (10 phút)
| # | Task | Ghi chú |
|---|
| 11 | Verify backup đã chạy | Check backup log/email notification |
| 12 | Check backup size | Size giảm đột ngột = backup fail silently |
| 13 | Spot-check backup integrity | Download 1 file random từ backup → mở được? |
Application (10 phút)
| # | Task | Ghi chú |
|---|
| 14 | Check application logs | Error rate tăng? New errors? |
| 15 | Monitor response time | API response >2s → investigate |
| 16 | Database connections | Active connections gần limit? |
| 17 | Queue/worker status | Background jobs có bị stuck? |
Checklist hàng tháng (2-4 giờ)
Thực hiện ngày 1 mỗi tháng.
Security (1 giờ)
| # | Task | Chi tiết |
|---|
| 18 | Full system update | apt update && apt upgrade (Ubuntu) — schedule downtime nếu cần |
| 19 | Review user accounts | Disable tài khoản không sử dụng, đặc biệt tài khoản nhân viên đã nghỉ |
| 20 | Password audit | Check password policy, enforce rotation cho admin accounts |
| 21 | Security scan | Chạy lynis audit system hoặc OpenVAS scan |
| 22 | Review firewall logs | Phát hiện pattern attack, block IP range nếu cần |
| 23 | Update SSL certificates | Verify auto-renew (Let’s Encrypt), renew manual nếu cần |
| # | Task | Chi tiết |
|---|
| 24 | Log rotation | Kiểm tra logrotate config, xóa log cũ >30 ngày |
| 25 | Clean temp files | /tmp, /var/tmp, application cache |
| 26 | Database maintenance | VACUUM ANALYZE (PostgreSQL), OPTIMIZE TABLE (MySQL) |
| 27 | Review slow queries | PostgreSQL: pg_stat_statements, MySQL: slow query log |
| 28 | Clear application cache | Redis: check memory, evict expired keys |
| 29 | Review disk usage trends | Disk tăng bao nhiêu/tháng? Bao lâu nữa hết? |
Backup & Recovery (30 phút)
| # | Task | Chi tiết |
|---|
| 30 | Full backup test restore | Restore backup lên staging → test app chạy OK? |
| 31 | Review backup retention | Giữ bao nhiêu bản? Daily (7 ngày), Weekly (4 tuần), Monthly (12 tháng) |
| 32 | Off-site backup verify | Backup có replicate sang cloud/location khác? |
Monitoring & Alerting (30 phút)
| # | Task | Chi tiết |
|---|
| 33 | Review alert rules | Alert có đang gửi đúng? Test bằng cách trigger alert |
| 34 | Review monitoring dashboard | Metrics có accurate? Thêm metrics mới nếu cần |
| 35 | Check notification channels | Email/Slack alert có đến đúng người? |
Checklist hàng quý (1 ngày)
Thực hiện đầu mỗi quý (tháng 1, 4, 7, 10).
Infrastructure Review (2 giờ)
| # | Task | Chi tiết |
|---|
| 36 | Capacity planning | Server hiện tại đủ cho 3 tháng tới? Traffic trend? |
| 37 | Review server specs | CPU/RAM/Disk có cần upgrade? |
| 38 | Network performance | Bandwidth utilization, latency trends |
| 39 | Review hosting costs | Có plan tốt hơn/rẻ hơn? |
| 40 | Hardware health (nếu on-premise) | RAID status, disk SMART data, UPS battery |
Security Audit (2 giờ)
| # | Task | Chi tiết |
|---|
| 41 | Penetration test | Quét vulnerabilities từ bên ngoài |
| 42 | Access review | Ai có SSH access? Còn cần thiết? |
| 43 | Key rotation | Rotate SSH keys, API keys, database passwords |
| 44 | Compliance check | GDPR, PCI DSS (nếu applicable) |
| 45 | Incident review | Có sự cố nào trong quý? Root cause? Action items? |
Disaster Recovery (2 giờ)
| # | Task | Chi tiết |
|---|
| 46 | DR drill | Giả lập server crash → restore từ backup → đo thời gian |
| 47 | Review DR plan | Còn accurate? Contact list, procedure up-to-date? |
| 48 | Test failover | Nếu có standby server → test switch thật |
| 49 | Review RTO/RPO | Recovery Time Objective và Recovery Point Objective còn phù hợp? |
Documentation (1 giờ)
| # | Task | Chi tiết |
|---|
| 50 | Update server inventory | IP, specs, purpose, owner, software versions |
| 51 | Update runbook | Procedure xử lý sự cố, contact list |
| 52 | Update network diagram | Topology hiện tại accurate? |
Automation: Tự động hóa bảo trì
Những gì nên tự động
| Task | Tool | Cách setup |
|---|
| Security updates (unattended) | unattended-upgrades (Ubuntu) | Auto-install security patches |
| Backup | restic, borgbackup, hoặc cloud backup | Cron job hàng ngày 2h sáng |
| Log rotation | logrotate | Config sẵn trên hầu hết Linux |
| SSL renewal | certbot (Let’s Encrypt) | Auto-renew cron job |
| Disk space alert | Monitoring tool | Alert khi >80% |
| Uptime monitoring | UptimeRobot (free) | Check mỗi 5 phút |
Những gì KHÔNG nên tự động (cần review thủ công)
- Major version upgrade (ví dụ: PostgreSQL 15 → 16)
- Firewall rule changes
- User access review
- Disaster recovery drill
- Performance optimization decisions
Chi phí bảo trì server cho SME
Tự bảo trì (IT admin nội bộ)
| Hạng mục | Thời gian/tháng | Giá trị |
|---|
| Checklist hàng tuần (4 lần) | 4 giờ | ~1.5 triệu VND (IT admin hourly) |
| Checklist hàng tháng | 4 giờ | ~1.5 triệu VND |
| Checklist hàng quý (chia cho 3 tháng) | 3 giờ | ~1 triệu VND |
| Tổng | ~11 giờ/tháng | ~4 triệu VND |
Outsource bảo trì
| Gói | Bao gồm | Chi phí/tháng |
|---|
| Basic | Monitoring + weekly check + backup verify | 5-10 triệu VND |
| Standard | Basic + monthly maintenance + security scan | 10-20 triệu VND |
| Premium | Standard + quarterly audit + DR drill + 24/7 support | 20-40 triệu VND |
Xem thêm: So sánh chi phí IT nội bộ vs outsource bảo trì
FAQ — Câu hỏi thường gặp
1. IT admin kiêm nhiệm (vừa dev vừa admin) — ưu tiên task nào?
Top 5 PHẢI làm mỗi tuần: (1) Security updates, (2) Backup verify, (3) Disk usage check, (4) Check error logs, (5) SSL expiry. 5 task này mất ~30 phút/tuần và ngăn được 80% sự cố. Còn lại delegate cho automation hoặc outsource.
2. Server cloud (AWS/GCP) có cần bảo trì không?
Có! Cloud provider quản lý hardware, nhưng bạn quản lý OS và application. Security updates, backup, monitoring, log management — tất cả vẫn cần làm. Chỉ khác: không cần lo hardware health, UPS, cooling.
3. Bao lâu nên thay/upgrade server?
Server on-premise: 3-5 năm (hardware warranty hết). Cloud: scale theo nhu cầu, không cần “thay.” Signal cần upgrade: CPU >80% thường xuyên, RAM swap liên tục, disk I/O bottleneck, response time tăng dù traffic không tăng.
Kết luận
Bảo trì server không glamorous nhưng critical. 11 giờ/tháng đầu tư vào checklist bảo trì có thể tránh hàng trăm triệu VND thiệt hại do sự cố. Quan trọng nhất: consistency — bảo trì 30 phút/tuần đều đặn tốt hơn “bảo trì marathon” 1 lần rồi quên 3 tháng.
Nếu bạn cần hỗ trợ bảo trì server hoặc muốn outsource cho team chuyên nghiệp, hãy liên hệ Trinh Digital — chúng tôi cung cấp dịch vụ Managed IT từ monitoring đến maintenance cho SME.