Các ứng dụng của công nghệ xử lý tiếng nói?

    Chào anh ạ,

    Em có xem qua video giới thiệu về công nghệ xử lý tiếng nói của bên anh phát triển, em khá ấn tượng vì phần text to speech giọng đọc khá tự nhiên, có ngắt nghỉ khá ấn tượng.

    Tuy nhiên em cũng khá tò mò về việc ứng dụng của công nghệ này trong cuộc sống.

    Theo kinh nghiệm của anh, trên thế giới và ở Việt Nam hiện nay công nghệ này có thể ứng dụng khả thị trong những lĩnh vực nào?

    Cá nhân em mới thấy rõ nhất là cho CS & các ứng dụng đọc báo hay sách nói.

    Chào em, cảm ơn em đã có khen sản phẩm bên anh :)

    Thực ra bọn anh cần phải cố gắng hơn nữa để tạo ra tiếng nói tổng hợp giống như người thật nhất. Tiến tới là không thể phân biệt đâu là giọng người và giọng máy nữa.

    Câu hỏi của em về ứng dụng của công nghệ này, đúng như em nói một trong các ứng dụng đó là đọc sách, đọc báo hoặc có thể thuyết minh phim. Ngoài ra nó là thành phần quan trọng đóng vai trò đầu ra trong trợ lý ảo, robot, các hệ thống tương tác người máy bằng tiếng nói.

    Anh lấy một ví dụ đơn giản nhé, ở sân bay người ta đọc tên các chuyến bay, thời gian hoặc khi ta nghe số tiền trong tài khoản điện thoại khi ta gọi lên tổng đài. Thì giọng đọc đó là sự ghép nối đơn giản của các từ có sẵn, ta nghe thấy chậm, rời rạc, không tự nhiên chút nào cả. Nếu ta thay những cái đó bằng hệ thống tổng hợp tiếng nói, thì chúng ta sẽ cảm thấy dễ chịu hơn rất nhiều.



    Trả lời

    Chào em, cảm ơn em đã có khen sản phẩm bên anh :)

    Thực ra bọn anh cần phải cố gắng hơn nữa để tạo ra tiếng nói tổng hợp giống như người thật nhất. Tiến tới là không thể phân biệt đâu là giọng người và giọng máy nữa.

    Câu hỏi của em về ứng dụng của công nghệ này, đúng như em nói một trong các ứng dụng đó là đọc sách, đọc báo hoặc có thể thuyết minh phim. Ngoài ra nó là thành phần quan trọng đóng vai trò đầu ra trong trợ lý ảo, robot, các hệ thống tương tác người máy bằng tiếng nói.

    Anh lấy một ví dụ đơn giản nhé, ở sân bay người ta đọc tên các chuyến bay, thời gian hoặc khi ta nghe số tiền trong tài khoản điện thoại khi ta gọi lên tổng đài. Thì giọng đọc đó là sự ghép nối đơn giản của các từ có sẵn, ta nghe thấy chậm, rời rạc, không tự nhiên chút nào cả. Nếu ta thay những cái đó bằng hệ thống tổng hợp tiếng nói, thì chúng ta sẽ cảm thấy dễ chịu hơn rất nhiều.