Ứng dụng của NLP vào search engine như thế nào ạ?
Em chào thầy. Hiện tại em đang làm việc với elastic search. Em gặp rất là nhiều khó khăn làm trong việc sao để đưa ra kết quả có nội dung tương tự như câu truy vấn không hẳn chỉ là đưa ra những câu có chứa những keyword như hiện tại. Em cũng tự đặt nhiều câu hỏi: "Làm sao để xác định được đâu là key word của một câu?", "Làm sao để biết đâu là stop word?", "Làm sao để search ra các từ tương đồng với nhau?", và "Làm sao để search ra một câu có ý nghĩa tương tự?".... Em đã đọc một số bài báo về những vấn đề trên, dataset mà họ thử nghiệm là bộ dữ liệu tiếng Anh cho kết qua khá là chất lượng. Khi làm việc với tiếng Việt mình thì em gặp rất là nhiều vấn đề, từ việc tìm stop word, entity đến việc xác định ngữ nghĩa của một câu. Em mong thầy có thể gợi ý cho em một số hướng tiếp cận để làm việc tốt với bộ dữ liệu tiếng Việt. Em cảm ơn thầy ạ.
giảng viên đại học quốc gia hà nội
Chào em,
Những vấn đề khó khăn em gặp phải đều là những khó khăn "hợp lí" và thường gặp của người làm ứng dụng NLP trong tiếng Việt.
Đúng như em nói, nếu làm tiếng Anh thì có khi còn có mặt dễ hơn, vì có sẵn nhiều bộ dữ liệu để thử nghiệm, điều này không dễ dàng trong tiếng Việt.
Cho một câu, làm thế nào để xác định được từ nào là keyword, từ nào là stopword thì có lẽ còn cần dựa vào tri thức lĩnh vực mà em đang xử lí. Ví dụ, từ "cà phê" có thể là keyword trong lĩnh vực đồ uống, nhưng có thể không là keyword trong lĩnh vực thể thao chẳng hạn. Như thế cần xây dựng các luật thủ công hoặc áp dụng các mô hình học tự động để trích chọn, phát hiện keywords với các câu thuộc các lĩnh vực khác nhau.
Để tìm các từ tương đồng về nghĩa với nhau thì cách tiếp cận hay dùng là dùng từ điển hoặc dùng vector từ. Với tiếng Việt, ta cũng có những bộ vector từ được công bố cho cộng đồng sử dụng công khai, ví dụ như ở
Chúc em có những ứng dụng NLP hiệu quả trong các vấn đề em cần giải quyết.
Phương
Lê Hồng Phương
Chào em,
Những vấn đề khó khăn em gặp phải đều là những khó khăn "hợp lí" và thường gặp của người làm ứng dụng NLP trong tiếng Việt.
Đúng như em nói, nếu làm tiếng Anh thì có khi còn có mặt dễ hơn, vì có sẵn nhiều bộ dữ liệu để thử nghiệm, điều này không dễ dàng trong tiếng Việt.
Cho một câu, làm thế nào để xác định được từ nào là keyword, từ nào là stopword thì có lẽ còn cần dựa vào tri thức lĩnh vực mà em đang xử lí. Ví dụ, từ "cà phê" có thể là keyword trong lĩnh vực đồ uống, nhưng có thể không là keyword trong lĩnh vực thể thao chẳng hạn. Như thế cần xây dựng các luật thủ công hoặc áp dụng các mô hình học tự động để trích chọn, phát hiện keywords với các câu thuộc các lĩnh vực khác nhau.
Để tìm các từ tương đồng về nghĩa với nhau thì cách tiếp cận hay dùng là dùng từ điển hoặc dùng vector từ. Với tiếng Việt, ta cũng có những bộ vector từ được công bố cho cộng đồng sử dụng công khai, ví dụ như ở
Chúc em có những ứng dụng NLP hiệu quả trong các vấn đề em cần giải quyết.
Phương