Chẩn đoán vấn đề và gợi ý action của mô hình với learning curve như dưới?

Trí tuệ nhân tạo

Đây là một bài binary classification với metrics chính được đo là ROC-AUC, mình đang sử dụng khoảng 71 features trong đó đa số là numerical (chỉ có 4 features là binary, 1 feature là nominal). Giải thuật sử dụng là XGBoost, default hyper-parameters.

Desired performance cho bài này khoảng 0.8.

Theo mình hiểu, model đang bị overfit do training score cao hơn hẳn cross-validation developing score. Hiện tại chưa có cách nào để thu thập thêm training data.

P/s: Có một điểm mình băn khoăn là khi sử dụng toàn bộ hơn 2.200 samples (dùng nốt 400 samples holdout lúc cross-validate) để đo training scores, kết quả cho ra số khoảng 0.78. Nếu vẽ cái này số này lên đồ thị trên thì đường training score màu xanh sẽ tụt dốc tương đối khủng khiếp. Có vấn đề gì mình đang hiểu sai ở đây không nhỉ?

Từ khóa:

www.ritchieng.com

Trả lời

Dang Quang An

Learning Curve | Machine Learning, Deep Learning, and Computer Vision

www.ritchieng.com

Nội dung liên quan

Chẩn đoán vấn đề và gợi ý action của mô hình với learning curve như dưới?

Trí tuệ nhân tạo

machine learning

learning curve

bias variance diagnosis

sáng kiến ý tưởng 2018

trí tuệ nhân tạo

U nang buồng trứng - nguyên nhân, triệu chứng và chẩn đoán

Metaverse sẽ định hình lại toàn bộ ngành du lịch?

U xơ tử cung - triệu chứng, chẩn đoán và điều trị

Cứ mạnh mẽ Cởi trần khi xã hội không cấm

20 tuổi - ma tuý đã phá huỷ tôi

Có nên sử dụng dầu dừa trong qui trình chăm sóc da không?

Đối với bạn, định nghĩa mùa hè bị lãng phí là gì?

How to properly do feature selection in supervised learning?

Nước Pháp còn có tên gọi khác là gì ?

Các yêu cầu đối với ngành Việt Nam học?