Làm sao để test model với dữ liệu lớn ?

Trí tuệ nhân tạo

Hi anh chị,

Em đang làm bài toán phát hiện tin nhắn spam với dữ liệu khoảng 15tr tin nhắn / ngày.

Em đang có vấn đề không biết làm sao để lấy ra được hết các tin nhắn spam để test model.

anh chị nào có kinh nghiệm xin chia sẻ cho em với ạ

Cảm ơn anh chị

Từ khóa:

trí tuệ nhân tạo

Mình nghĩ là trong dữ liệu của bạn đã phải xác định rõ đâu là tin nhắn spam, đâu là tin nhắn không spam rồi chứ nhỉ?. Mà khi huấn luyện một model, thì tập dữ liệu 15tr tin của bạn phải chia ra thành 2 phần tách biệt là tập huấn luyện và tập test, tập huấn luyện để huấn luyện mô hình còn tập test thì chuyên để dành để test. Cách chia thì bạn có thể chia random theo tỉ lệ nhất định, có thể dùng hàm train_test_split trong sklearn.
Còn nếu 15tr tin của bạn chưa được gán nhãn là tin nào là spam, tin nào không phải là spam thì bạn phải gán nhãn cho nó trước rồi mới tính đến chuyện huấn luyện model.

Trả lời

Nguyễn Văn Thịnh

Kỹ sư xử lý tiếng nói

Nội dung liên quan

E hiện là học sinh cấp 3 ban A và thường có rất nhiều đề thầy cô phát trên lớp mà không biết nên dùng gì để đựng và sắp xếp chúng vào 1 chỗ cho gọn. Mong mn cho e gợi ý ạ?

Làm sao để test model với dữ liệu lớn ?

Trí tuệ nhân tạo

trí tuệ nhân tạo

Hẹn hò với người lớn tuổi liệu có ổn không?

Vì sao hầu hết trợ lý ảo đều mặc định giọng nữ?

Làm sao để làm hòa với mẹ?

Bạn có quan tâm nhiều đến trình độ học vấn của người yêu/nửa kia của mình không?

E hiện là học sinh cấp 3 ban A và thường có rất nhiều đề thầy cô phát trên lớp mà không biết nên dùng gì để đựng và sắp xếp chúng vào 1 chỗ cho gọn. Mong mn cho e gợi ý ạ?

Giúp mình với ạ?

Dịch sởi quay trở lại có phải vì phong trào anti-vacine?

Bộ phim nào đang hot nhất rạp tháng 2/2019?

Kinh doanh sản phẩm gì trong năm 2019?

Giải mã "Pháp Luân Công" - tại sao chúng ta không nên quay lưng lại với bộ môn này? (P.2)

Tại sao ở Việt Nam chỉ phát triển được du lịch tâm linh chứ ít thấy du lịch văn hóa?