Hỏi anh Hải về bài toán kiếm tra lỗi chính tả?
Chào anh ạ,
Hiện tại em đang làm về bài toán kiểm lỗi chính tả cho tiếng việt. Lỗi chính tả mà em đang cần phát hiện là Real-word errors: Ví dụ. : "Báo cáo về tần xuất sự suất hiện của H1N1" . Thì từ "xuất" và "suất" trong câu này mắc lỗi chính tả. Anh có thể gợi ý một số state-of-the-art cho bài toán này được không ạ ?
Ngoài ra em cũng đang tìm data tiếng việt cho bài toán này với định dạng đại loại như sau:
Báo cáo về tần xuất sự suất hiện của H1N1
--O---O---O--O----E---O---E-----O----O----O
Trong đó, O là đúng chính tả, E là sai chính tả
Xin cảm ơn.
Chào em,
Anh không phải là chuyên gia về lĩnh vực NLP. Tuy nhiên với bài toán này, a xin đưa ra một số ý kiến hi vọng hữu ích cho em:
- Em có thể sử dụng mô hình ngôn ngữ n-gram để tính xác suất xuất hiện của từ tiếp theo dựa trên các từ cạnh nó (có thể trước hoặc sau). Ví dụ như P(suất|tần) > P(xuất|tần) nhiều lần do đó nếu ta đánh "tần xuất" thì có thể là sai mà phải là "tần suất".
- Ngoài ra em có thể sử dụng các mô hình ngôn ngữ hiện đại hiện nay như sử dụng mạng nơ ron hồi quy (RNN) để đạt độ chính xác cao hơn.
Chúc em thành công!
Đỗ Văn Hải
Chào em,
Anh không phải là chuyên gia về lĩnh vực NLP. Tuy nhiên với bài toán này, a xin đưa ra một số ý kiến hi vọng hữu ích cho em:
- Em có thể sử dụng mô hình ngôn ngữ n-gram để tính xác suất xuất hiện của từ tiếp theo dựa trên các từ cạnh nó (có thể trước hoặc sau). Ví dụ như P(suất|tần) > P(xuất|tần) nhiều lần do đó nếu ta đánh "tần xuất" thì có thể là sai mà phải là "tần suất".
- Ngoài ra em có thể sử dụng các mô hình ngôn ngữ hiện đại hiện nay như sử dụng mạng nơ ron hồi quy (RNN) để đạt độ chính xác cao hơn.
Chúc em thành công!