T
Trinh Digital
Dịch vụ AI

Hướng dẫn tạo voiceover bằng AI cho video marketing (free & paid)

Trinh Digital · · 12 phút đọc

Tạo giọng đọc AI cho video marketing đã trở nên đơn giản đến mức bất kỳ ai có máy tính và internet đều có thể làm được. Không cần micro chuyên dụng, không cần phòng thu cách âm, không cần thuê MC — chỉ cần text script và một tool TTS phù hợp. Tiết kiệm 70-95% chi phí so với thuê voice talent truyền thống.

Bài viết này sẽ hướng dẫn bạn từng bước cụ thể tạo voiceover AI chuyên nghiệp cho video marketing — bao gồm cả phương án miễn phí hoàn toàn và phương án trả phí cho chất lượng studio.

Lead magnet: Tải miễn phí So sánh chi tiết 10 tool TTS tiếng Việt — bảng so sánh chất lượng, chi phí, tính năng, phù hợp cho từng use case.

Tại sao cần voiceover AI?

Bài toán chi phí

Phương ánChi phí/video 3 phútThời gianChất lượng
Thuê MC chuyên nghiệp3-10 triệu VND2-5 ngàyXuất sắc
Thuê voice talent (freelance)500K-2 triệu VND1-3 ngàyTốt
Tự thu âm (cần thiết bị)0 (sau khi mua mic)1-2 giờTrung bình
AI voiceover (paid)5-50K VND10-30 phútTốt
AI voiceover (free)010-30 phútTrung bình-khá

Một agency marketing tại TP.HCM sản xuất 40 video/tháng. Chuyển từ freelance voice talent sang ElevenLabs: từ 40 triệu VND/tháng xuống 2.5 triệu VND/tháng — tiết kiệm 94%.

Phần 1: Phương án miễn phí (Free)

Tool #1: FPT.AI TTS (Free tier)

Ưu điểm:

  • 50,000 ký tự miễn phí/tháng (~10,000 từ tiếng Việt)
  • Giọng Việt chất lượng tốt (cả Bắc và Nam)
  • API có sẵn
  • Server tại Việt Nam

Hướng dẫn:

  1. Đăng ký tại fpt.ai → Vào Console → Chọn TTS
  2. Paste text → Chọn giọng (Bắc nữ, Bắc nam, Nam nữ, Nam nam)
  3. Điều chỉnh tốc độ (rate) — khuyến nghị 0.9-1.0
  4. Click “Tạo” → Download file MP3

Tips:

  • Giọng Ban Mai (Bắc nữ) tự nhiên nhất
  • Chia text thành đoạn ngắn (100-150 từ) để AI đọc tốt hơn
  • Thêm dấu phẩy, dấu chấm đúng chỗ để AI nghỉ hơi

Tool #2: Google Cloud TTS (Free tier)

Ưu điểm:

  • 1 triệu ký tự miễn phí/tháng (WaveNet voices)
  • 4 triệu ký tự miễn phí/tháng (Standard voices)
  • Chất lượng WaveNet khá tốt
  • API mạnh cho developer

Hướng dẫn:

  1. Đăng ký Google Cloud → Enable Text-to-Speech API
  2. Vào console → Chọn “vi-VN” language
  3. Chọn voice (vi-VN-Wavenet-A đến D)
  4. Paste text → Click “Speak” → Download

Tips:

  • vi-VN-Wavenet-A (nữ) chất lượng tốt nhất
  • Dùng SSML để kiểm soát tốc độ, nghỉ: <break time="500ms"/>
  • Free tier đủ cho ~200,000 từ/tháng

Tool #3: Zalo AI TTS

Ưu điểm:

  • Miễn phí (giới hạn API calls)
  • Giọng Việt tối ưu cho Zalo ecosystem
  • Đơn giản, không cần config phức tạp

Hạn chế:

  • Chất lượng thấp hơn FPT.AI và Google
  • Ít voice options
  • API rate limit

Tool #4: Edge TTS (Microsoft, hoàn toàn miễn phí)

Ưu điểm:

  • Miễn phí không giới hạn (dùng engine của Microsoft Edge)
  • Chất lượng khá tốt (Neural voice)
  • Có thể dùng qua Python library edge-tts

Hướng dẫn (không cần code):

  1. Mở Microsoft Edge browser
  2. Vào trang web có text cần đọc
  3. Click “Read aloud” (Ctrl+Shift+U)
  4. Chọn giọng Việt
  5. Record output bằng Audacity (free audio recorder)

Hướng dẫn (dùng Python):

import edge_tts
import asyncio

async def main():
    text = "Đây là giọng đọc AI tiếng Việt miễn phí"
    communicate = edge_tts.Communicate(text, "vi-VN-HoaiMyNeural")
    await communicate.save("output.mp3")

asyncio.run(main())

Workflow miễn phí hoàn chỉnh

Script (ChatGPT free) → TTS (FPT.AI free hoặc Edge TTS)
→ Edit audio (Audacity free) → Add to video (CapCut free)

Chi phí: 0 VND. Chất lượng: 7/10.

Phần 2: Phương án trả phí (Paid)

Tool #1: ElevenLabs — Premium quality

Chi phí: $5-99/tháng

Hướng dẫn tạo voiceover:

Bước 1: Đăng ký → Vào Speech Synthesis Bước 2: Chọn giọng hoặc clone giọng riêng

  • Preset voices: chọn giọng gần Vietnamese accent
  • Voice cloning: upload 1-5 phút audio → AI clone giọng của bạn Bước 3: Paste script tiếng Việt Bước 4: Điều chỉnh:
  • Stability: 50-70% (tự nhiên hơn khi thấp, ổn định hơn khi cao)
  • Similarity: 70-90% (giống giọng gốc)
  • Style: 0-50% (thêm emotion, expressiveness) Bước 5: Generate → Download → Kiểm tra → Regenerate nếu chưa ưng

Tips cho tiếng Việt:

  • Clone giọng từ audio tiếng Việt sẵn có (CEO, MC nội bộ)
  • Stability = 60%, Similarity = 80% cho kết quả tốt nhất
  • Kiểm tra từ Hán Việt — viết phiên âm nếu AI đọc sai

Tool #2: OpenAI TTS — Tích hợp ChatGPT

Chi phí: $15/1M ký tự (TTS) hoặc $30/1M (TTS-HD)

Hướng dẫn qua API:

from openai import OpenAI

client = OpenAI()

response = client.audio.speech.create(
    model="tts-1-hd",  # hoặc "tts-1" cho nhanh hơn
    voice="nova",       # alloy, echo, fable, onyx, nova, shimmer
    input="Xin chào, đây là voiceover AI cho video marketing."
)

response.stream_to_file("voiceover.mp3")

Hướng dẫn qua ChatGPT (không code):

  • ChatGPT Plus/Pro: nhờ ChatGPT viết script → “Read aloud” → Record

Tool #3: FPT.AI TTS (Paid tiers)

Chi phí: 500K-2 triệu VND/tháng

Lý do chọn paid:

  • Không giới hạn ký tự
  • Priority processing (nhanh hơn)
  • Custom voice (tạo giọng riêng cho thương hiệu)
  • SLA support

Tool #4: Murf AI — Studio-in-browser

Chi phí: $23-83/tháng

Ưu điểm đặc biệt:

  • Editor trực quan (timeline-based, giống video editor)
  • Sync voiceover với slide/video ngay trong browser
  • Pitch, speed, emphasis control per word
  • Background music library

Phù hợp cho: Người không quen dùng video editor, muốn all-in-one solution.

Phần 3: Workflow chuyên nghiệp từ A-Z

Bước 1: Viết script tối ưu cho TTS (20 phút)

Nguyên tắc CLEAR:

  • Concise: Câu ngắn, 10-15 từ/câu
  • Logical: Chia đoạn rõ ràng, mỗi đoạn 1 ý
  • Easy to pronounce: Tránh từ khó, tên riêng lạ
  • Actionable: Mỗi đoạn có mục đích rõ
  • Rhythmic: Xen kẽ câu ngắn và vừa, tạo nhịp điệu

Ví dụ script TỐT:

Bạn đang mất bao nhiêu giờ mỗi tuần cho việc nhập liệu?
(nghỉ 1 giây)
Với hầu hết doanh nghiệp nhỏ, con số đó là 15 đến 20 giờ.
(nghỉ 0.5 giây)
Tương đương nửa thời gian làm việc của một nhân viên.
(nghỉ 1 giây)
Nhưng giải pháp AI của chúng tôi giảm con số đó xuống còn 2 giờ.

Ví dụ script XẤU:

Với việc doanh nghiệp của bạn đang phải đối mặt với
thách thức về việc nhập liệu thủ công tốn rất nhiều
thời gian của nhân viên mỗi tuần thì giải pháp AI
automation tự động hóa quy trình mà chúng tôi cung cấp
sẽ giúp tiết kiệm đáng kể thời gian và chi phí.

Bước 2: Tạo voiceover (10-15 phút)

  1. Paste script vào tool TTS đã chọn
  2. Chọn giọng phù hợp (test 2-3 giọng)
  3. Điều chỉnh tốc độ (~0.95 cho Việt Nam — hơi chậm hơn default)
  4. Generate → Preview → Điều chỉnh → Generate lại nếu cần
  5. Download file WAV (chất lượng cao) hoặc MP3

Bước 3: Xử lý audio (10-15 phút)

Dùng Audacity (miễn phí) hoặc Adobe Audition (trả phí):

  1. Noise reduction: Loại bỏ nhiễu nền (nếu có)
  2. Normalize: Đưa volume về mức chuẩn (-1dB)
  3. Compression: Giảm chênh lệch giữa to và nhỏ
  4. EQ: Boost nhẹ 2-4kHz cho giọng rõ ràng hơn
  5. De-ess: Giảm âm “s” quá sắc (nếu cần)
  6. Export: WAV 44.1kHz/16-bit hoặc MP3 320kbps

Preset Audacity cho voiceover:

1. Effect → Noise Reduction → Get Noise Profile → OK
2. Effect → Normalize → -1.0 dB
3. Effect → Compressor → Threshold -15dB, Ratio 3:1
4. Effect → Equalization → Bass rolloff 100Hz, Treble boost 3kHz +2dB

Bước 4: Sync với video (15-20 phút)

Dùng CapCut (miễn phí):

  1. Import video footage/slide
  2. Import voiceover audio
  3. Align audio với visual tương ứng
  4. Thêm nhạc nền (volume 10-20% so với voiceover)
  5. Thêm subtitle (CapCut auto-generate hoặc thủ công)
  6. Thêm sound effects tại transition points
  7. Export

Bước 5: Quality check (5-10 phút)

Checklist QC voiceover:

  • Phát âm chính xác (đặc biệt tên riêng, số liệu)?
  • Thanh điệu đúng (nghe tự nhiên, không “sái giọng”)?
  • Tốc độ phù hợp (không quá nhanh, không quá chậm)?
  • Volume đều (không có đoạn to đột ngột hoặc nhỏ quá)?
  • Nhạc nền không lấn át giọng đọc?
  • Sync đúng với visual (nói đến gì thì hiện cái đó)?
  • Subtitle khớp với voiceover?

Phần 4: Xử lý vấn đề thường gặp

Vấn đề 1: AI đọc sai từ Hán Việt

Giải pháp: Viết phiên âm trong script

  • “Quyết nghị” → “quyết nghị” (thường AI đọc được)
  • “Phê chuẩn” → Nếu AI đọc sai, thêm dấu: “phê-chuẩn”
  • Tên riêng: “Nguyễn Văn A” → AI thường đọc được, nhưng test trước

Vấn đề 2: Giọng quá đều, thiếu cảm xúc

Giải pháp:

  • Thêm dấu chấm than, dấu hỏi vào script để AI hiểu emotion
  • Dùng SSML tags: <emphasis>, <prosody>
  • ElevenLabs: tăng Style parameter lên 30-50%
  • Chia câu dài thành câu ngắn → AI ngắt nghỉ tự nhiên hơn

Vấn đề 3: Số liệu bị đọc sai

Giải pháp: Viết số thành chữ trong script

  • “45,8 tỷ” → “bốn mươi lăm phẩy tám tỷ”
  • “23%” → “hai mươi ba phần trăm”
  • “2026” → “hai không hai sáu” (năm) hoặc “hai nghìn không trăm hai mươi sáu”

Vấn đề 4: Tiếng Anh xen kẽ bị phát âm sai

Giải pháp:

  • ElevenLabs: Thường xử lý tốt code-switching
  • FPT.AI: Viết phiên âm tiếng Việt cho từ Anh quan trọng
  • Hoặc: Tách đoạn tiếng Anh → Generate bằng voice Anh → Ghép lại

Vấn đề 5: Giọng AI quá “perfect” — thiếu tự nhiên

Giải pháp paradox: Thêm “lỗi nhỏ” cho tự nhiên

  • Thêm “ừm”, “à” vào script (ElevenLabs xử lý tốt)
  • Giảm Stability (ElevenLabs) để giọng biến đổi nhẹ
  • Thêm breath sounds (một số tool có option này)

So sánh Free vs Paid: Chọn cái nào?

Tiêu chíFreePaid ($5-99/tháng)
Chất lượng giọng6-7/108-9.5/10
Voice cloning
Emotion control
Giới hạn ký tự50K-4M/tháng100K-unlimited
WatermarkMột số tool
Commercial use⚠️ Kiểm tra license
Phù hợpVideo internal, social basicVideo marketing, ads, course

Khuyến nghị:

  • Bắt đầu: FPT.AI free + Edge TTS (kiểm tra chất lượng đủ chưa)
  • Cần tốt hơn: ElevenLabs Starter ($5/tháng) — best value
  • Cần chuyên nghiệp: ElevenLabs Pro ($99/tháng) + voice cloning
  • Cần all-in-one: Murf AI ($23/tháng) — editor + TTS

FAQ — Câu hỏi thường gặp

Khách hàng có nhận ra đây là giọng AI không?

Với ElevenLabs Pro hoặc FPT.AI paid: 60-70% người nghe không nhận ra trong test mù (blind test). Với free tools: khoảng 40% không nhận ra. Cách giảm “nhận ra”: thêm nhạc nền, sound effect, và focus vào nội dung hay — người xem chú ý nội dung hơn là giọng đọc.

Có thể dùng giọng AI cho quảng cáo thương mại không?

Phụ thuộc vào license tool. ElevenLabs, Murf AI, FPT.AI paid: được phép dùng thương mại. Free tiers: kiểm tra kỹ terms of service. Google Cloud TTS: được phép thương mại (cả free tier). Edge TTS: vùng xám — technically cho personal use.

Làm sao tạo “brand voice” nhất quán cho doanh nghiệp?

3 bước: (1) Chọn 1 giọng AI cố định cho mọi video, (2) Lưu settings (speed, pitch, emotion) thành preset, (3) Tạo audio style guide (tốc độ, tone, cách đọc số liệu). Hoặc: clone giọng 1 người trong công ty → dùng giọng clone đó cho mọi content.

TTS miễn phí có đủ cho video lên YouTube không?

Đủ cho video tutorial, hướng dẫn, info-video. Chưa đủ cho video quảng cáo, brand video cần chất lượng cao. Tiêu chuẩn: nếu giọng đọc không khiến bạn “cringe” khi nghe lại → đủ dùng.

Mất bao lâu để tạo 1 voiceover 3 phút?

Viết script: 20-30 phút. Generate voiceover: 2-5 phút. Xử lý audio: 10-15 phút. Tổng: 35-50 phút (so với 2-3 ngày thuê voice talent truyền thống).

Kết luận

Tạo voiceover bằng AI là kỹ năng có ROI cao nhất mà marketer có thể học trong 2026. Với phương án miễn phí, bạn có thể bắt đầu ngay hôm nay — không cần budget, không cần thiết bị, chỉ cần script tốt và 1 tool TTS.

Khi đã quen và cần chất lượng cao hơn, đầu tư $5-22/tháng (125K-550K VND) cho ElevenLabs sẽ nâng chất lượng lên gần mức studio chuyên nghiệp.

Cần tư vấn hoặc triển khai voiceover AI cho doanh nghiệp (voice cloning, brand voice, integration)? Trinh Digital hỗ trợ setup toàn bộ quy trình từ script template đến audio post-processing.

#TTS#AI#video#voiceover
Chia sẻ: Z

Sẵn sàng chuyển đổi số cùng Trinh Digital?

Liên hệ ngay để nhận tư vấn miễn phí. Đội ngũ chuyên gia sẽ phân tích nhu cầu và đề xuất giải pháp tối ưu.

Zalo