T
Trinh Digital
Triển khai Giải pháp

Tự bảo trì server: Checklist hàng tuần/tháng/quý cho IT admin

Trinh Digital · · 10 phút đọc

Checklist bảo trì server là thứ phân biệt giữa IT admin “phòng cháy” và IT admin “chữa cháy.” Server không tự bảo trì — nếu bạn không chủ động kiểm tra, update, và optimize, một ngày nào đó bạn sẽ nhận cuộc gọi lúc 2h sáng: “Server sập rồi!” Bài viết này cung cấp checklist bảo trì đầy đủ, chia theo tần suất (tuần/tháng/quý), để bạn giữ server luôn ổn định và an toàn.

🎁 Lead magnet: Tải miễn phí Server Maintenance Calendar Template — lịch bảo trì server theo tuần/tháng/quý trên Google Calendar + Notion, tự động nhắc nhở.

Tại sao cần bảo trì server định kỳ?

Hậu quả của không bảo trì

Sự cốNguyên nhânChi phí
Server bị hackKhông cập nhật security patch50-500 triệu VND (data breach)
Mất dataBackup không hoạt động (phát hiện khi cần restore)Vô giá (nếu không recover được)
Website chậm dầnDisk đầy, log không rotate, cache không clear-20% conversion
Server crashRAM leak, process zombie, disk fullDowntime 2-8 giờ
SSL expiredQuên renew certificateBrowser hiện “Not Secure”

Thống kê

  • 60% downtime có thể ngăn được bằng bảo trì định kỳ (Ponemon Institute)
  • 93% công ty mất data không có backup viable bị phá sản trong 1 năm (University of Texas)
  • 57% cyberattacks khai thác vulnerabilities đã có patch nhưng chưa cài (Verizon DBIR)

Checklist hàng tuần (30-60 phút)

Thực hiện mỗi thứ 2 đầu tuần.

Security (15 phút)

#TaskCommand/ToolGhi chú
1Check security updatesapt list --upgradable (Ubuntu)Cài critical/security updates ngay
2Review login attemptslastb | head -50Nhiều failed login = brute force
3Check firewall rulesufw status hoặc iptables -LĐảm bảo chỉ mở port cần thiết
4Review active SSH sessionswho hoặc wSession lạ = potentially compromised
5Check SSL certificate expiryecho | openssl s_client -servername domain.com -connect domain.com:443 2>/dev/null | openssl x509 -noout -datesAlert nếu <30 ngày

Performance (15 phút)

#TaskCommand/ToolAlert threshold
6Disk usagedf -h>80% → cleanup ngay
7Memory usagefree -h>85% → investigate
8CPU load averageuptime>number of cores → overloaded
9Top processestop -bn1 | head -20Process dùng >50% CPU liên tục
10Disk I/Oiostat -x 1 3>80% utilization → bottleneck

Backup (10 phút)

#TaskGhi chú
11Verify backup đã chạyCheck backup log/email notification
12Check backup sizeSize giảm đột ngột = backup fail silently
13Spot-check backup integrityDownload 1 file random từ backup → mở được?

Application (10 phút)

#TaskGhi chú
14Check application logsError rate tăng? New errors?
15Monitor response timeAPI response >2s → investigate
16Database connectionsActive connections gần limit?
17Queue/worker statusBackground jobs có bị stuck?

Checklist hàng tháng (2-4 giờ)

Thực hiện ngày 1 mỗi tháng.

Security (1 giờ)

#TaskChi tiết
18Full system updateapt update && apt upgrade (Ubuntu) — schedule downtime nếu cần
19Review user accountsDisable tài khoản không sử dụng, đặc biệt tài khoản nhân viên đã nghỉ
20Password auditCheck password policy, enforce rotation cho admin accounts
21Security scanChạy lynis audit system hoặc OpenVAS scan
22Review firewall logsPhát hiện pattern attack, block IP range nếu cần
23Update SSL certificatesVerify auto-renew (Let’s Encrypt), renew manual nếu cần

Performance Optimization (1 giờ)

#TaskChi tiết
24Log rotationKiểm tra logrotate config, xóa log cũ >30 ngày
25Clean temp files/tmp, /var/tmp, application cache
26Database maintenanceVACUUM ANALYZE (PostgreSQL), OPTIMIZE TABLE (MySQL)
27Review slow queriesPostgreSQL: pg_stat_statements, MySQL: slow query log
28Clear application cacheRedis: check memory, evict expired keys
29Review disk usage trendsDisk tăng bao nhiêu/tháng? Bao lâu nữa hết?

Backup & Recovery (30 phút)

#TaskChi tiết
30Full backup test restoreRestore backup lên staging → test app chạy OK?
31Review backup retentionGiữ bao nhiêu bản? Daily (7 ngày), Weekly (4 tuần), Monthly (12 tháng)
32Off-site backup verifyBackup có replicate sang cloud/location khác?

Monitoring & Alerting (30 phút)

#TaskChi tiết
33Review alert rulesAlert có đang gửi đúng? Test bằng cách trigger alert
34Review monitoring dashboardMetrics có accurate? Thêm metrics mới nếu cần
35Check notification channelsEmail/Slack alert có đến đúng người?

Checklist hàng quý (1 ngày)

Thực hiện đầu mỗi quý (tháng 1, 4, 7, 10).

Infrastructure Review (2 giờ)

#TaskChi tiết
36Capacity planningServer hiện tại đủ cho 3 tháng tới? Traffic trend?
37Review server specsCPU/RAM/Disk có cần upgrade?
38Network performanceBandwidth utilization, latency trends
39Review hosting costsCó plan tốt hơn/rẻ hơn?
40Hardware health (nếu on-premise)RAID status, disk SMART data, UPS battery

Security Audit (2 giờ)

#TaskChi tiết
41Penetration testQuét vulnerabilities từ bên ngoài
42Access reviewAi có SSH access? Còn cần thiết?
43Key rotationRotate SSH keys, API keys, database passwords
44Compliance checkGDPR, PCI DSS (nếu applicable)
45Incident reviewCó sự cố nào trong quý? Root cause? Action items?

Disaster Recovery (2 giờ)

#TaskChi tiết
46DR drillGiả lập server crash → restore từ backup → đo thời gian
47Review DR planCòn accurate? Contact list, procedure up-to-date?
48Test failoverNếu có standby server → test switch thật
49Review RTO/RPORecovery Time Objective và Recovery Point Objective còn phù hợp?

Documentation (1 giờ)

#TaskChi tiết
50Update server inventoryIP, specs, purpose, owner, software versions
51Update runbookProcedure xử lý sự cố, contact list
52Update network diagramTopology hiện tại accurate?

Automation: Tự động hóa bảo trì

Những gì nên tự động

TaskToolCách setup
Security updates (unattended)unattended-upgrades (Ubuntu)Auto-install security patches
Backuprestic, borgbackup, hoặc cloud backupCron job hàng ngày 2h sáng
Log rotationlogrotateConfig sẵn trên hầu hết Linux
SSL renewalcertbot (Let’s Encrypt)Auto-renew cron job
Disk space alertMonitoring toolAlert khi >80%
Uptime monitoringUptimeRobot (free)Check mỗi 5 phút

Những gì KHÔNG nên tự động (cần review thủ công)

  • Major version upgrade (ví dụ: PostgreSQL 15 → 16)
  • Firewall rule changes
  • User access review
  • Disaster recovery drill
  • Performance optimization decisions

Chi phí bảo trì server cho SME

Tự bảo trì (IT admin nội bộ)

Hạng mụcThời gian/thángGiá trị
Checklist hàng tuần (4 lần)4 giờ~1.5 triệu VND (IT admin hourly)
Checklist hàng tháng4 giờ~1.5 triệu VND
Checklist hàng quý (chia cho 3 tháng)3 giờ~1 triệu VND
Tổng~11 giờ/tháng~4 triệu VND

Outsource bảo trì

GóiBao gồmChi phí/tháng
BasicMonitoring + weekly check + backup verify5-10 triệu VND
StandardBasic + monthly maintenance + security scan10-20 triệu VND
PremiumStandard + quarterly audit + DR drill + 24/7 support20-40 triệu VND

Xem thêm: So sánh chi phí IT nội bộ vs outsource bảo trì

FAQ — Câu hỏi thường gặp

1. IT admin kiêm nhiệm (vừa dev vừa admin) — ưu tiên task nào?

Top 5 PHẢI làm mỗi tuần: (1) Security updates, (2) Backup verify, (3) Disk usage check, (4) Check error logs, (5) SSL expiry. 5 task này mất ~30 phút/tuần và ngăn được 80% sự cố. Còn lại delegate cho automation hoặc outsource.

2. Server cloud (AWS/GCP) có cần bảo trì không?

Có! Cloud provider quản lý hardware, nhưng bạn quản lý OS và application. Security updates, backup, monitoring, log management — tất cả vẫn cần làm. Chỉ khác: không cần lo hardware health, UPS, cooling.

3. Bao lâu nên thay/upgrade server?

Server on-premise: 3-5 năm (hardware warranty hết). Cloud: scale theo nhu cầu, không cần “thay.” Signal cần upgrade: CPU >80% thường xuyên, RAM swap liên tục, disk I/O bottleneck, response time tăng dù traffic không tăng.

Kết luận

Bảo trì server không glamorous nhưng critical. 11 giờ/tháng đầu tư vào checklist bảo trì có thể tránh hàng trăm triệu VND thiệt hại do sự cố. Quan trọng nhất: consistency — bảo trì 30 phút/tuần đều đặn tốt hơn “bảo trì marathon” 1 lần rồi quên 3 tháng.

Nếu bạn cần hỗ trợ bảo trì server hoặc muốn outsource cho team chuyên nghiệp, hãy liên hệ Trinh Digital — chúng tôi cung cấp dịch vụ Managed IT từ monitoring đến maintenance cho SME.

#checklist#bảo trì#server#IT admin
Chia sẻ: Z

Sẵn sàng chuyển đổi số cùng Trinh Digital?

Liên hệ ngay để nhận tư vấn miễn phí. Đội ngũ chuyên gia sẽ phân tích nhu cầu và đề xuất giải pháp tối ưu.

Zalo