Tổng hợp tiếng nói tiếng Việt dựa trên mạng CNN với tập dữ liệu hạn chế

Bài viết đề xuất một mô hình tổng hợp tiếng nói tiếng Việt dựa trên việc áp dụng phương pháp Transfer Learning vào mô hình Deep Convolution Neural Network để sinh ra tiếng nói mới dựa trên tập dữ liệu huấn luyện rất nhỏ. Mô hình của chúng tôi có thể tổng hợp giọng nói mới với lượng dữ liệu huấn luyện nhỏ hơn 45 lần so với khi dùng mô hình Tacotron 2.

Từ khóa: Mô hình học máy, Phương pháp Transfer Learning, Mô hình Deep Convolution Neural Network, Mô hình Tacotron 2, Tính chất ngữ âm của giọng