Chẩn đoán vấn đề và gợi ý action của mô hình với learning curve như dưới?


Đây là một bài binary classification với metrics chính được đo là ROC-AUC, mình đang sử dụng khoảng 71 features trong đó đa số là numerical (chỉ có 4 features là binary, 1 feature là nominal). Giải thuật sử dụng là XGBoost, default hyper-parameters.

Desired performance cho bài này khoảng 0.8.

Theo mình hiểu, model đang bị overfit do training score cao hơn hẳn cross-validation developing score. Hiện tại chưa có cách nào để thu thập thêm training data.

P/s: Có một điểm mình băn khoăn là khi sử dụng toàn bộ hơn 2.200 samples (dùng nốt 400 samples holdout lúc cross-validate) để đo training scores, kết quả cho ra số khoảng 0.78. Nếu vẽ cái này số này lên đồ thị trên thì đường training score màu xanh sẽ tụt dốc tương đối khủng khiếp. Có vấn đề gì mình đang hiểu sai ở đây không nhỉ?

Từ khóa: machine learning, learning curve, bias variance diagnosis, Trí tuệ nhân tạo

Không sai đâu bạn. Tuy nhiên bạn nên vẽ full curve thay vì interpolation. Ngoài ra, bạn có thể xem lại cách tính scoring theo trục trặc gì không. Learning curve này hay thật.



Trả lời

Không sai đâu bạn. Tuy nhiên bạn nên vẽ full curve thay vì interpolation. Ngoài ra, bạn có thể xem lại cách tính scoring theo trục trặc gì không. Learning curve này hay thật.