Bài toán Speech to Text của dữ liệu nói chung?

    Hiện nay, con người có thể nói ko chỉ 1 ngôn ngữ mà có thể nói nhiều ngôn ngữ trong cùng một câu nói. Vậy để làm bài toán speech to text cho đa ngôn ngữ mà cần ít lượng data nhất thì state-of-the-art ở trong bài toán này là gì? Cơ chế để embedding và khử nhiễu trong bài toán speech2text như thế nào? Hay việc, từ 1 câu tiếng anh mình nói sau đó ra 1 câu text bằng tiêng việt mà không phải đi qua 1 bộ machine translation thì theo anh hiện nay có cách nào để làm được việc này không?

    Hi anh Hải,

    Em muốn tạo 1 model để speech2text thì nên bắt đầu từ đâu anh nhỉ?

    Em cảm ơn anh!

    Trả lời

    Hi anh Hải,

    Em muốn tạo 1 model để speech2text thì nên bắt đầu từ đâu anh nhỉ?

    Em cảm ơn anh!

    Chào em,
    Câu hỏi của em rất hay, đúng là hiện nay chúng ta đôi khi nói lại chèn thêm các từ tiếng Anh vào. Đặc biệt là ở một số nước như Singapore, Hongkong, họ nói tiếng Anh và tiếng Trung xen lẫn nhau trong cùng một câu gọi là code-switching. Chủ đề này cũng là chủ đề khá hot trong cộng đồng những người làm nhận dạng tiếng nói. Cách tiếp cận phổ biến là trước hết xác định đc ngôn ngữ, sau đó dùng mô hình nhận dạng ngôn ngữ đó để nhận dạng.

    Hiện nay hệ thống nhận dạng của VTCC đã có khả năng nhận dạng các từ tiếng Anh trong câu nói ví dụ:
    Cho tôi hỏi config cái modem wifi này như thế nào.

    Để nâng cao chất lượng nhận dạng, tín hiệu tiếng nói được khử nhiễu, khử vang trước khi đc đưa vào hệ thống nhận dạng