Hỏi anh Hải về bài toán kiếm tra lỗi chính tả?

Chào anh ạ,

Hiện tại em đang làm về bài toán kiểm lỗi chính tả cho tiếng việt. Lỗi chính tả mà em đang cần phát hiện là Real-word errors: Ví dụ. : "Báo cáo về tần xuất sự suất hiện của H1N1" . Thì từ "xuất" và "suất" trong câu này mắc lỗi chính tả. Anh có thể gợi ý một số state-of-the-art cho bài toán này được không ạ ?

Ngoài ra em cũng đang tìm data tiếng việt cho bài toán này với định dạng đại loại như sau:

Báo cáo về tần xuất sự suất hiện của H1N1

--O---O---O--O----E---O---E-----O----O----O

Trong đó, O là đúng chính tả, E là sai chính tả

Xin cảm ơn.

Chào em,

Anh không phải là chuyên gia về lĩnh vực NLP. Tuy nhiên với bài toán này, a xin đưa ra một số ý kiến hi vọng hữu ích cho em:

- Em có thể sử dụng mô hình ngôn ngữ n-gram để tính xác suất xuất hiện của từ tiếp theo dựa trên các từ cạnh nó (có thể trước hoặc sau). Ví dụ như P(suất|tần) > P(xuất|tần) nhiều lần do đó nếu ta đánh "tần xuất" thì có thể là sai mà phải là "tần suất".

- Ngoài ra em có thể sử dụng các mô hình ngôn ngữ hiện đại hiện nay như sử dụng mạng nơ ron hồi quy (RNN) để đạt độ chính xác cao hơn.

Chúc em thành công!

Trả lời

Đỗ Văn Hải

Chào em,

Anh không phải là chuyên gia về lĩnh vực NLP. Tuy nhiên với bài toán này, a xin đưa ra một số ý kiến hi vọng hữu ích cho em:

- Ngoài ra em có thể sử dụng các mô hình ngôn ngữ hiện đại hiện nay như sử dụng mạng nơ ron hồi quy (RNN) để đạt độ chính xác cao hơn.

Chúc em thành công!

Nội dung liên quan

E hiện là học sinh cấp 3 ban A và thường có rất nhiều đề thầy cô phát trên lớp mà không biết nên dùng gì để đựng và sắp xếp chúng vào 1 chỗ cho gọn. Mong mn cho e gợi ý ạ?

Hỏi anh Hải về bài toán kiếm tra lỗi chính tả?

Vì sao một số người thích bắt lỗi chính tả?

Khi gặp người giới tính thứ 3 thì bạn suy nghĩ gì?

Có ai biết trang web nào chỉnh sửa lỗi chính tả và dùng từ đặt câu trong bài luận anh văn không ạ Cho mk tham khảo với?

Bạn có quan tâm nhiều đến trình độ học vấn của người yêu/nửa kia của mình không?

E hiện là học sinh cấp 3 ban A và thường có rất nhiều đề thầy cô phát trên lớp mà không biết nên dùng gì để đựng và sắp xếp chúng vào 1 chỗ cho gọn. Mong mn cho e gợi ý ạ?

Giúp mình với ạ?

Hỏi thế gian tình ái là chi mà đôi lứa thề nguyền sống chết?

Tại sao ngày càng nhiều người bị ung thư?

Tại sao Mỹ và Nhật lại sử dụng song song 2 hạ tầng điện 110V và 220V?

Triều đại Tây Sơn làm tốt việc ngoại giao, đặc biệt với nhà Thanh

Tính năng nào tưởng chừng rất đơn giản, nhưng Facebook đến giờ vẫn chưa có, hoặc mới có gần đây?