3,000 cuộc gọi mỗi ngày. 50 chi nhánh trên toàn quốc. 20 nhân viên tổng đài quay cuồng trả lời những câu hỏi lặp đi lặp lại: “Cửa hàng mấy giờ đóng cửa?”, “Sản phẩm X còn hàng không?”, “Đơn hàng của tôi đến đâu rồi?” Đây là bài toán mà chuỗi bán lẻ điện thoại MobileCity mang đến Trinh Digital. Và đây là case study dịch vụ AI giọng nói cho thấy tổng đài tự động tiếng Việt đã thay đổi hoàn toàn trải nghiệm khách hàng.
Bối cảnh: Tổng đài truyền thống quá tải
Thông tin khách hàng
- Ngành: Bán lẻ điện thoại & phụ kiện
- Quy mô: 50 chi nhánh toàn quốc, 800 nhân viên
- Doanh thu: ~60 tỉ VND/tháng
- Hotline: 1 số tổng đài, 20 agents
Vấn đề cụ thể
| Vấn đề | Số liệu |
|---|---|
| Cuộc gọi/ngày | 3,000-3,500 |
| Cuộc gọi bị nhỡ | 35% (peak hours: 50%) |
| Thời gian chờ trung bình | 4 phút 30 giây |
| Chi phí tổng đài/tháng | 280 triệu VND (lương + hạ tầng) |
| CSAT (Customer Satisfaction) | 3.2/5 |
| Tỷ lệ cuộc gọi lặp lại | 45% (gọi lại vì không giải quyết được) |
Phân loại cuộc gọi
| Loại cuộc gọi | Tỷ lệ | Độ phức tạp |
|---|---|---|
| Hỏi thông tin cửa hàng (giờ mở, địa chỉ) | 25% | Thấp |
| Kiểm tra đơn hàng | 20% | Thấp |
| Hỏi giá, tồn kho | 20% | Trung bình |
| Hỗ trợ bảo hành | 15% | Trung bình |
| Tư vấn mua hàng | 10% | Cao |
| Khiếu nại | 10% | Cao |
65% cuộc gọi (thông tin cửa hàng + đơn hàng + giá) có thể tự động hóa hoàn toàn.
Giải pháp: AI Voice Agent tiếng Việt
Kiến trúc hệ thống
Luồng xử lý cuộc gọi:
- Khách gọi hotline → AI Voice Agent tiếp nhận (< 3 giây)
- Speech-to-Text: Chuyển giọng nói thành text (tiếng Việt, cả 3 miền)
- Intent Recognition: Nhận diện ý định khách hàng
- RAG Retrieval: Truy xuất thông tin từ knowledge base
- Response Generation: Tạo câu trả lời tự nhiên
- Text-to-Speech: Chuyển text thành giọng nói tự nhiên
- Escalation (nếu cần): Chuyển cho agent người
Tính năng chi tiết
1. Tiếp nhận tự động 24/7
- AI Voice Agent trả lời trong 3 giây (so với 4.5 phút chờ trước đây)
- Hoạt động 24/7, kể cả ngoài giờ hành chính và ngày lễ
- Xử lý đồng thời không giới hạn cuộc gọi (không bao giờ “máy bận”)
2. Nhận diện giọng nói tiếng Việt 3 miền
- Accuracy: 95% cho giọng miền Bắc, 92% cho miền Trung, 94% cho miền Nam
- Nhận diện tên sản phẩm (iPhone, Samsung, Xiaomi…) chính xác
- Xử lý được accent, nói nhanh, môi trường ồn
3. Tra cứu real-time
- Kết nối ERP: kiểm tra tồn kho theo chi nhánh
- Kết nối OMS: tracking đơn hàng real-time
- Kết nối CRM: lịch sử mua hàng, điểm loyalty
4. Tư vấn sản phẩm cơ bản
- So sánh 2-3 sản phẩm theo nhu cầu
- Gợi ý phụ kiện đi kèm
- Thông báo promotion đang chạy
5. Chuyển tiếp thông minh
- Khi AI không thể giải quyết → chuyển cho agent người
- Kèm theo summary cuộc hội thoại → agent không cần hỏi lại
- Ưu tiên routing theo skill (bảo hành → team kỹ thuật, khiếu nại → team CSKH cao cấp)
Giọng AI Voice
Trinh Digital phát triển AI Voice với:
- 2 giọng: nam và nữ, giọng miền Bắc (chuẩn)
- Tone: thân thiện, chuyên nghiệp, tốc độ vừa phải
- Prosody tự nhiên: có ngữ điệu, nhấn nhá, không robotic
- Latency: < 500ms (phản hồi nhanh, không awkward silence)
Chi phí triển khai
| Hạng mục | Chi phí |
|---|---|
| Khởi tạo (one-time) | 180 triệu VND |
| Vận hành/tháng | 45 triệu VND |
| Bao gồm: | |
| - AI Voice Agent | ✓ |
| - Speech-to-Text & Text-to-Speech | ✓ |
| - RAG Knowledge Base | ✓ |
| - ERP/OMS/CRM Integration | ✓ |
| - 50,000 phút gọi/tháng | ✓ |
| - Monitoring & maintenance | ✓ |
So sánh chi phí
| Hạng mục | Tổng đài truyền thống | AI Voice Agent |
|---|---|---|
| Nhân sự | 280 triệu VND/tháng | 0 (giảm xuống 8 agents) |
| Hạ tầng | 30 triệu VND/tháng | Included |
| Chi phí/tháng (tổng) | 310 triệu VND | 45 triệu + 112 triệu (8 agents) = 157 triệu VND |
| Tiết kiệm | — | 153 triệu VND/tháng |
Quy trình triển khai
| Phase | Thời gian | Hoạt động |
|---|---|---|
| Khảo sát | 1 tuần | Phân tích call logs, phân loại intents, map quy trình |
| Data preparation | 2 tuần | Xây dựng knowledge base, FAQs, product catalog |
| Development | 3 tuần | Build AI Voice Agent, integration APIs |
| Testing | 2 tuần | Test 500+ scenarios, 3 miền giọng nói |
| Pilot | 2 tuần | Chạy thử 20% cuộc gọi, song song với agent người |
| Rollout | 2 tuần | Mở rộng dần 50% → 80% → 100% |
Tổng thời gian: 12 tuần (3 tháng)
Kết quả sau 3 tháng vận hành
Số liệu vận hành
| KPI | Trước AI | Sau 3 tháng | Thay đổi |
|---|---|---|---|
| Cuộc gọi được tiếp nhận | 65% | 98% | +33% |
| Thời gian chờ | 4 phút 30 giây | 3 giây | -99% |
| Cuộc gọi AI xử lý hoàn toàn | 0% | 68% | — |
| Cuộc gọi cần agent người | 100% | 32% | -68% |
| CSAT | 3.2/5 | 4.1/5 | +28% |
| Cuộc gọi lặp lại | 45% | 18% | -60% |
| Chi phí tổng đài/tháng | 310 triệu | 157 triệu | -49% |
| Agents cần thiết | 20 người | 8 người | -60% |
Phân tích theo loại cuộc gọi
| Loại | AI xử lý hoàn toàn | AI + Human | Human only |
|---|---|---|---|
| Thông tin cửa hàng | 98% | 2% | 0% |
| Kiểm tra đơn hàng | 95% | 4% | 1% |
| Hỏi giá, tồn kho | 85% | 12% | 3% |
| Hỗ trợ bảo hành | 40% | 45% | 15% |
| Tư vấn mua | 15% | 50% | 35% |
| Khiếu nại | 5% | 25% | 70% |
ROI
Tiết kiệm chi phí: 153 triệu × 12 = 1.836 tỉ VND/năm Chi phí đầu tư năm đầu: 180 triệu + 45 triệu × 12 = 720 triệu VND ROI năm đầu: 155% Từ năm 2 trở đi: Tiết kiệm ròng ~1.3 tỉ VND/năm
Cải thiện ngoài dự kiến
1. Dữ liệu khách hàng phong phú hơn: Mọi cuộc gọi được ghi nhận, phân loại, phân tích. Phát hiện:
- 30% cuộc gọi hỏi về sản phẩm X → Sản phẩm X đang hot, cần tăng tồn kho
- Cuộc gọi khiếu nại tăng 40% cho chi nhánh Y → Kiểm tra quality chi nhánh Y
- Peak hours khác nhau theo vùng miền → Tối ưu staffing
2. Training data cho nhân viên: AI ghi nhận best practices từ các agents giỏi nhất → Tạo training material tự động cho agents mới.
Bài học rút ra
1. Pilot trước, rollout sau
Chạy pilot 20% cuộc gọi trong 2 tuần → phát hiện 15 edge cases chưa handle → fix → rollout. Nếu rollout 100% ngay, 15 edge cases đó ảnh hưởng ~450 khách/ngày.
2. AI Voice tiếng Việt đã đủ tốt
Năm 2024, AI voice tiếng Việt còn rất robotic. Năm 2026, 78% khách không nhận ra đang nói chuyện với AI (dựa trên survey hậu cuộc gọi).
3. 12 agents → 8 agents, không phải sa thải
12 agents được chuyển sang vai trò mới: CSKH cao cấp, training, quality assurance. Họ xử lý ít cuộc gọi hơn nhưng cuộc nào cũng có giá trị cao.
4. Data từ AI Voice = goldmine
Trước đây: cuộc gọi xong là “mất.” Giờ: mọi cuộc gọi được transcript, phân loại, phân tích → insights vô giá cho product, marketing, operations.
FAQ — Câu hỏi thường gặp
AI Voice có xử lý được giọng địa phương nặng không?
Accuracy giảm khoảng 5-8% cho giọng địa phương nặng (ví dụ: Nghệ An, Quảng Ngãi). Trong trường hợp AI không nhận diện được, hệ thống tự động hỏi lại 1 lần, nếu vẫn không nhận diện → chuyển cho agent người. Tỷ lệ này chiếm < 5% tổng cuộc gọi.
Khách hàng phản ứng thế nào khi biết nói chuyện với AI?
Dựa trên survey 1,000 khách: 62% “không quan tâm, miễn giải quyết được vấn đề”, 20% “thích vì nhanh hơn”, 12% “muốn nói với người thật” (và được chuyển ngay), 6% “ấn tượng với công nghệ.” Quan trọng: AI luôn cho option “nhấn 0 để nói với nhân viên.”
Bạn đang chi quá nhiều cho tổng đài truyền thống? Liên hệ Trinh Digital để được tư vấn giải pháp AI Voice phù hợp cho doanh nghiệp bạn.