Đưa kiến trúc Zero-Trust vào định danh người nói tiếng Việt: Giải pháp bảo mật mới cho trợ lý giọng nói thông minh

21/05/2026

Sự phát triển nhanh chóng của trí tuệ nhân tạo (AI), Internet vạn vật (IoT) và các giao diện điều khiển bằng giọng nói đang tạo ra những thay đổi mạnh mẽ trong cách con người tương tác với thiết bị số. Từ trợ lý ảo, hệ thống nhà thông minh đến các nền tảng y tế và giáo dục trực tuyến, giọng nói ngày càng trở thành phương thức xác thực và điều khiển thuận tiện.

Tuy nhiên, sự tiện lợi này cũng kéo theo những nguy cơ bảo mật mới khi các hệ thống nhận dạng tiếng nói hiện nay chủ yếu tập trung vào việc hiểu nội dung lệnh, trong khi khả năng xác thực chính xác người phát lệnh vẫn còn nhiều hạn chế.

Trước thực trạng đó, nhóm nghiên cứu của Trường Đại học Đại Nam đã đề xuất một hệ thống định danh người nói tiếng Việt theo mô hình Zero-Trust, kết hợp công nghệ học sâu ECAPA-TDNN và kỹ thuật chuẩn hóa điểm số AS-Norm nhằm nâng cao độ chính xác và khả năng chống giả mạo trong môi trường thực tế.

Theo nhóm tác giả, nhiều hệ thống trợ lý giọng nói phổ biến hiện nay như Google Assistant, Siri hay Alexa có thể nhận biết nội dung phát biểu rất tốt nhưng chưa thực sự xác minh được danh tính người nói. Điều này làm gia tăng nguy cơ bị khai thác bởi các cuộc tấn công phát lại giọng nói hoặc giả mạo danh tính bằng công nghệ tổng hợp âm thanh. Đối với các lĩnh vực nhạy cảm như y tế, tài chính hay quản trị doanh nghiệp, việc một người không được cấp quyền có thể kích hoạt lệnh hoặc truy cập dữ liệu bằng giọng nói đặt ra rủi ro rất lớn về an toàn thông tin.

Để giải quyết bài toán này, nghiên cứu áp dụng nguyên lý cốt lõi của kiến trúc Zero-Trust – “Never Trust, Always Verify” (Không tin cậy mặc định, luôn xác minh). Theo đó, mọi câu lệnh bằng giọng nói đều được xem là không đáng tin cậy cho đến khi hệ thống xác thực thành công danh tính sinh trắc học của người nói thông qua các đặc trưng giọng nói được trích xuất bằng trí tuệ nhân tạo.

Trung tâm của hệ thống là kiến trúc học sâu ECAPA-TDNN, một trong những mô hình tiên tiến nhất hiện nay trong lĩnh vực nhận dạng người nói. Mô hình này có khả năng phân tích sâu các đặc trưng âm sắc, cao độ và cấu trúc phát âm để tạo ra “dấu vân tay giọng nói” riêng biệt cho từng cá nhân. Đặc biệt, công nghệ này phù hợp với tiếng Việt – ngôn ngữ có sáu thanh điệu và mức độ biến thiên ngữ âm cao giữa các vùng miền.

Nhằm tăng khả năng hoạt động trong môi trường thực tế, nhóm nghiên cứu đã xây dựng bộ dữ liệu quy mô lớn gồm 175.623 mẫu âm thanh của 1.877 người nói, thu thập từ nhiều nguồn khác nhau như phòng thu, dữ liệu nghiên cứu ngôn ngữ và các bản ghi thực tế trên Internet. Quá trình huấn luyện còn được tăng cường bằng các kỹ thuật mô phỏng tiếng ồn, tiếng vang phòng họp và che phổ âm thanh để giúp hệ thống thích nghi với các điều kiện ghi âm phức tạp.

Kết quả thực nghiệm cho thấy mô hình đạt tỷ lệ lỗi cân bằng (EER) 5,67% và điểm F1 đạt 0,94, thể hiện khả năng nhận diện chính xác người nói ngay cả khi xuất hiện nhiễu môi trường hoặc thay đổi thiết bị ghi âm. Khi áp dụng cơ chế chuẩn hóa điểm số AS-Norm, khoảng cách phân tách giữa nhóm người nói đúng và nhóm người nói sai tăng tới 8,4 lần, giúp hệ thống duy trì độ ổn định khi triển khai trong các môi trường khác nhau.

Một điểm đáng chú ý của nghiên cứu là việc xem định danh người nói như một thành phần trong hệ sinh thái quản lý danh tính và truy cập (Identity and Access Management – IAM). Theo đó, sinh trắc học giọng nói không hoạt động độc lập mà có thể kết hợp với các phương thức xác thực khác như mật khẩu, mã OTP hoặc thiết bị bảo mật để hình thành cơ chế xác thực đa yếu tố (MFA), tăng cường khả năng bảo vệ dữ liệu số.

Nhóm nghiên cứu cũng cho rằng việc lưu trữ các vector đặc trưng giọng nói (speaker embeddings) thay vì ghi âm gốc sẽ giúp nâng cao quyền riêng tư của người dùng và phù hợp với các quy định về bảo vệ dữ liệu cá nhân tại Việt Nam cũng như quốc tế. Trong tương lai, hệ thống có thể được mở rộng bằng các công nghệ phát hiện giọng nói giả mạo (anti-spoofing) và nhận diện âm thanh deepfake nhằm xây dựng nền tảng xác thực giọng nói có độ tin cậy cao cho các ứng dụng số thế hệ mới.