Làm sao để test model với dữ liệu lớn ?

  1. Trí tuệ nhân tạo

Hi anh chị,

Em đang làm bài toán phát hiện tin nhắn spam với dữ liệu khoảng 15tr tin nhắn / ngày.

Em đang có vấn đề không biết làm sao để lấy ra được hết các tin nhắn spam để test model.

anh chị nào có kinh nghiệm xin chia sẻ cho em với ạ

Cảm ơn anh chị

Từ khóa: 

trí tuệ nhân tạo

Mình nghĩ là trong dữ liệu của bạn đã phải xác định rõ đâu là tin nhắn spam, đâu là tin nhắn không spam rồi chứ nhỉ?. Mà khi huấn luyện một model, thì tập dữ liệu 15tr tin của bạn phải chia ra thành 2 phần tách biệt là tập huấn luyện và tập test, tập huấn luyện để huấn luyện mô hình còn tập test thì chuyên để dành để test. Cách chia thì bạn có thể chia random theo tỉ lệ nhất định, có thể dùng hàm train_test_split trong sklearn.
Còn nếu 15tr tin của bạn chưa được gán nhãn là tin nào là spam, tin nào không phải là spam thì bạn phải gán nhãn cho nó trước rồi mới tính đến chuyện huấn luyện model.

Trả lời

Mình nghĩ là trong dữ liệu của bạn đã phải xác định rõ đâu là tin nhắn spam, đâu là tin nhắn không spam rồi chứ nhỉ?. Mà khi huấn luyện một model, thì tập dữ liệu 15tr tin của bạn phải chia ra thành 2 phần tách biệt là tập huấn luyện và tập test, tập huấn luyện để huấn luyện mô hình còn tập test thì chuyên để dành để test. Cách chia thì bạn có thể chia random theo tỉ lệ nhất định, có thể dùng hàm train_test_split trong sklearn.
Còn nếu 15tr tin của bạn chưa được gán nhãn là tin nào là spam, tin nào không phải là spam thì bạn phải gán nhãn cho nó trước rồi mới tính đến chuyện huấn luyện model.