Xử lý tiếng nói tiếng việt và tiếng anh khác nhau thế nào?
Chào anh Hải ạ, em muốn hỏi anh một số vấn đề nhỏ ạ:
Em thấy có sự khác biệt đáng kể trong việc liên kết âm tiết giữa tiếng Việt và tiếng Anh: Tiếng Việt là ngôn ngữ đơn âm tiết, sự liên kết giữa các âm tiết chỉ có 2 dạng là rời rạc và liền nhau. Việc đọc liền nhau chỉ là tối giản khoảng nghỉ giữa 2 âm tiết, tạo ra sự liền mạch. Và đọc dạng nào cũng không ảnh hưởng lớn đến việc hiểu của người nghe.
Tiếng Anh là ngôn ngữ đa âm tiết, có thêm 1 sự liên kết đặc biệt giữa các âm tiết mà ko có trong tiếng việt, đó là nối vần. Ví dụ : từ any, theo từ điển cambridge có ipa là /ˈen·i/, ta thấy có 2 âm tiết là |en| và |i|. Nhưng thực tế khi nghe, tai của mình sẽ nghe thấy giống en-ni nhiều hơn.
Có sự khác nhau như vậy, việc Xử lý vấn đề này như thế nào ạ, thưa anh?
Chào Bảo,
Câu hỏi của em rất hay! Trong tiếng nói tự nhiên của con người thì các từ (word), âm tiết (syllable), âm vị (phoneme) có sự ảnh hưởng đến nhau tùy vào vị trí, tùy vào các âm đứng cạnh nó. Đúng như em nói với mỗi một ngôn ngữ thì sự ảnh hưởng này là khác nhau.
Trong xử lý tiếng nói, người ta handle việc này như thế nào?Anh ví dụ trong nhận dạng tiếng nói thì các đơn vị âm cơ bản để xây dựng mô hình không phải là phoneme mà thực tế còn nhỏ hơn thế tức là các phoneme nhưng có xét đến các phoneme cạnh nó nữa gọi là context-depedent phoneme. Ví dụ cùng một phoneme /i/ nhưng có thể được biểu diễn bởi nhiều mô hình khác nhau tùy thuộc vào "context" của nó:
model i_1: /ah/-/i/+/t/
model i_2: /h/-/i/+/ng/
....
ở ví dụ trên phoneme /i/ là phoneme trung tâm và có các context (left-, right+) khác nhau thì có thể được biểu diễn bằng các model khác nhau,...
Hi vọng ví dụ trên phần nào giúp em hiểu cơ bản về việc xử lý trong tiếng nói.
Đỗ Văn Hải
Chào Bảo,
Câu hỏi của em rất hay! Trong tiếng nói tự nhiên của con người thì các từ (word), âm tiết (syllable), âm vị (phoneme) có sự ảnh hưởng đến nhau tùy vào vị trí, tùy vào các âm đứng cạnh nó. Đúng như em nói với mỗi một ngôn ngữ thì sự ảnh hưởng này là khác nhau.
Trong xử lý tiếng nói, người ta handle việc này như thế nào?Anh ví dụ trong nhận dạng tiếng nói thì các đơn vị âm cơ bản để xây dựng mô hình không phải là phoneme mà thực tế còn nhỏ hơn thế tức là các phoneme nhưng có xét đến các phoneme cạnh nó nữa gọi là context-depedent phoneme. Ví dụ cùng một phoneme /i/ nhưng có thể được biểu diễn bởi nhiều mô hình khác nhau tùy thuộc vào "context" của nó:
model i_1: /ah/-/i/+/t/
model i_2: /h/-/i/+/ng/
....
ở ví dụ trên phoneme /i/ là phoneme trung tâm và có các context (left-, right+) khác nhau thì có thể được biểu diễn bằng các model khác nhau,...
Hi vọng ví dụ trên phần nào giúp em hiểu cơ bản về việc xử lý trong tiếng nói.