1. Noron.vn
  2. Bảo Ân
Avatar user Bảo Ân

Bảo Ân

Techie

Đánh dấu Part-of-Speech trong sửa lỗi chính tả tiếng Việt?

Theo em tìm hiểu, ngoài các kĩ thuật phát hiện và sửa lỗi chính tả phổ biến như N-gram và SoundEX, POS cũng rất hiệu quả, đặc biệt là trong Tiếng Anh. Vậy cho em hỏi liệu việc áp dụng POS cho tiếng Việt có khả thi hay không? Nếu có thì thầy có thể gợi ý cho em nguồn dữ liệu phù hợp?

Chào em,


Theo mình thì bài toán phát hiện và sửa lỗi tự động chính tả tiếng Việt là một bài toán thú vị, không dễ, nhưng chưa có một hệ thống nào được công bố rộng rãi, dưới dạng mã nguồn mở chẳng hạn. Hệ thống ở đây bao gồm cả dữ liệu và phần mềm.

Việc áp dụng PoS cho tiếng Việt vào bài toán này mình nghĩ là khả thi, tuy nhiên hiệu quả đến đâu thì chưa rõ. Chắc ý em hỏi là có hiệu quả không, chứ không phải là có khả thi không (khả thì tức là có áp dụng được không).


Nguồn dữ liệu mà em hỏi cụ thể là nguồn dữ liệu gì? Nếu đó là dữ liệu tiếng Việt có gán nhãn từ loại (PoS tagging) thì có. VLSP có khoảng 20 ngàn câu được gán nhãn từ loại bằng tay bởi chuyên gia ngôn ngữ. Còn nếu đó là dữ liệu cho bài toán sửa lỗi chính tả tiếng Việt thì mình chưa rõ có bộ nào đã được công bố hay không, quy mô như thế nào.


Phương