Áp dụng công nghệ tiên tiến xử lý ngôn ngữ, tiếng nói tiếng Việt

Google News

Nhận dạng tiếng nói tiếng Việt là một trong những bài toán quan trọng nhất của xử lý tiếng nói. Chủ đề của cuộc thi năm nay tập trung vào nhận dạng các bài giảng trực tuyến.

Ngày 26/11/2022, Hội thảo lần thứ 9 về Xử lí ngôn ngữ và tiếng nói tiếng Việt - VLSP 2022 đã diễn ra tại Viện Nghiên cứu Cao cấp về Toán (VIASM). 
Hội thảo do Câu lạc bộ Xử lí ngôn ngữ và tiếng nói tiếng Việt (VLSP), Hội Tin học Việt Nam (VAIP) thuộc VUSTA tổ chức, với sự phối hợp của Trường ĐH Khoa học Tự nhiên và Trường ĐH Công nghệ thuộc ĐH Quốc gia Hà Nội...
Tại hội thảo, Ban tổ chức đã báo cáo tổng kết các cuộc thi, trao giải thưởng cho các đội xuất sắc.
Ap dung cong nghe tien tien xu ly ngon ngu, tieng noi tieng Viet giai bai toan
Đội Speech World (VinBig Data) giành giải nhất với mô hình dữ liệu chuyển đổi văn bản tại cuộc thi tổng hợp tiếng nói có cảm xúc. Ảnh: HUS.
Năm 2022, VLSP đã tổ chức 7 cuộc thi về xử lí tiếng nói và xử lí văn bản, bao gồm: Tổng hợp tiếng nói, Nhận dạng tiếng nói, Xác minh người nói, (4) Phân tích cú pháp thành phần, Tóm tắt đa văn bản, Dịch máy Trung – Việt, Hỏi đáp đa ngữ về nội dung ảnh.
Theo Ban Tổ chức, nhận dạng tiếng nói tiếng Việt (Vietnamese Automatic Speech Recognition - VietASR) là một trong những bài toán quan trọng nhất của xử lý tiếng nói. Chủ đề của cuộc thi năm nay tập trung vào nhận dạng các bài giảng trực tuyến.
Trong gần 3 năm đại dịch vừa qua, chúng ta có một kho khổng lồ các video bài giảng trực tuyến. Nhu cầu tự động phân loại, đánh chỉ mục, tìm kiếm nội dung kho bài giảng đó là rất lớn.
Đề thi năm nay đã mô tả các bài toán trong thực tế, khi mà dữ liệu gắn nhãn thường ít và rất đắt đỏ, trong khi dữ liệu âm thanh thô thì dễ dàng thu thập hơn rất nhiều. Sử dụng công nghệ nhận dạng tiếng nói với độ chính xác cao để chuyển những video đó ra văn bản là bài toán giải quyết được nhu cầu trên.
TS Nguyễn Thị Thu Trang, Trường ĐH Bách khoa Hà Nội cho hay, các đội thi năm nay chinh phục 4 sắc thái cảm xúc phổ biến bao gồm trung lập, buồn, vui và cáu giận. Các đội cần nghiên cứu và phát triển hệ thống tổng hợp tiếng nói với các nhãn cảm xúc đầu vào, để đưa ra giọng nói đầu ra tương ứng với nhãn cảm xúc đó.
"Tổng hợp tiếng nói có cảm xúc (Emotional Speech Synthesis - ESS), một hướng nghiên cứu với nhiều thách thức, cho phép tái tạo lại giọng nói của con người theo biểu cảm cảm xúc nhất định. Hướng nghiên cứu này đã mở ra những ứng dụng có nhu cầu cao như thuyết minh/lồng tiếng phím, trợ lý ảo, kể chuyện…", TS Trang cho hay. 
Tại Hội thảo, các chuyên gia, nhà nghiên cứu đã chia sẻ, thảo luận các giải pháp công nghệ ứng dụng trong lĩnh vực nghiên cứu về xử lý tiếng nói và ngôn ngữ tiếng Việt. 
Ap dung cong nghe tien tien xu ly ngon ngu, tieng noi tieng Viet giai bai toan-Hinh-2
  Giải pháp Voice Biometrics (giải pháp sinh trắc giọng nói) giành giải Nhất ở cuộc thi Xác minh người nói trong môi trường đa ngôn ngữ (Multi-lingual Speaker Verification - AMSV). Ảnh: HUS.
TS Nguyễn Thị Minh Huyền, ĐH KHTN cho hay, phân tích cú pháp thành phần tiếng Việt (Vietnamese Constituency Parsing - VCP) là một trong các bài toán cơ bản của xử lí ngôn ngữ. Với mỗi văn bản đầu vào, hệ thống phân tích cú pháp cần tự động phân tích, xây dựng cây cú pháp trong đó xác định rõ được các thành phần ngữ pháp trong câu, tạo cơ sở cho các ứng dụng phân tích và hiểu ngôn ngữ tự nhiên. 
Các giải pháp về Hỏi đáp đa ngôn ngữ về nội dung ảnh (Multilingual Visual Question Answering) - bài toán nghiên cứu đa lĩnh vực: Xử lí ngôn ngữ tự nhiên và Xử lí ảnh; dịch máy Trung Việt và Việt Trung; Tóm tắt tóm lược đa văn bản Tiếng Việt (Vietnamese abstractive multi-document summarization-VLSP Abmusu)... cũng được chia sẻ, thảo luận tại sự kiện.
TS Nguyễn Thị Minh Huyền cho biết, trong những năm gần đây, chuỗi hội thảo của Câu lạc bộ Xử lí ngôn ngữ và tiếng nói tiếng Việt (VLSP), Hội Tin học Việt Nam đã có những đóng góp rất tích cực cho cộng đồng thông qua việc cung cấp các bộ dữ liệu có chú giải miễn phí dùng trong nghiên cứu.
Thông qua tổ chức các cuộc thi cho các nhóm nghiên cứu xử lí ngôn ngữ, Ban tổ chức có được đánh giá khách quan về chất lượng các công cụ giải quyết các tác vụ khác nhau trong lĩnh vực xử lí ngôn ngữ tự nhiên, qua đó cộng đồng nghiên cứu cũng được chia sẻ các tiến bộ khoa học công nghệ nhờ các báo cáo khoa học của các đội thi xuất sắc nhất tại hội thảo.
Mời quý độc giả xem video: "GS.TS Phạm Hùng Việt, Trường ĐH Khoa học Tự nhiên, ĐH Quốc gia Hà Nội chia sẻ về vai trò của đầu tư trọng điểm đối với nghiên cứu khoa học". Video do PV Tri thức và Cuộc sống thực hiện.


Mai Loan