Imbalanced classification trong bài toán Chunking và Perplexity trong đánh giá language ?
Chào thầy, em có 2 câu hỏi như sau ạ:
- Hiện tại em đang làm bài toán chunking text, input là text (đã segmentated, có nhãn POS và nhãn chunking theo format IOB). Cách tiếp cận của em bây giờ đang là xem nó là một bài toán POS tagging, tuy nhiên các nhãn I lại quá ít (so với B), làm cho mô hình dự đoán nhãn I rất kém, dù accuracy rất cao. Các phương pháp như up/down sample và random selection đều không dùng được trong trường hợp này, em cungx đã thử set weights cho vài thuộc tính liên quan (nhãn chunking của từ liền trước, nhãn pos của từ trước và hiện tại, ...) nhưng không khả quan. Thầy có gợi ý gì cho em về cách giải quyết hoặc là một hướng tiếp cận khác không ạ?
- Câu hỏi thứ 2 là một language model M thường được đánh giá bằng chỉ số Perplexity, bằng 2^H với H là entropy(M). Tại sao lại dùng perplexity trong khi nếu chỉ là 2^H thì dùng entropy vẫn có ý nghĩa đánh giá chứ ạ?
Em cảm ơn ạ!
giảng viên đại học quốc gia hà nội
Đoạn đầu có ý 2 của chú này:
Trung Le
Đoạn đầu có ý 2 của chú này: