Dữ liệu huấn luyện?

  1. Lê Hồng Phương

Em có câu hỏi muốn hỏi thầy:

Em thấy dữ liệu huấn luyện cho các bài toán về xử lý ngôn ngữ tự nhiên như tách từ, gán nhãn từ loại, phân tích cú pháp, văn phạm kết nối... là rất quan trọng.

Vậy ở Việt Nam có những kho dữ liệu nào mà các nhà nghiên cứu sử dụng. (Theo em biết có kho dữ liệu VLSP)

Việc xây dựng dữ liệu có nhất thiết cần chuyên gia về ngôn ngữ làm không ạ.

Từ khóa: 

giảng viên đại học quốc gia hà nội

Chào em,


Ở Việt Nam có lẽ chỉ có tổ chức VLSP là cung cấp kho dữ liệu miễn phí cho cộng đồng sử dụng trong các bài toán nghiên cứu và giảng dạy. Những kho dữ liệu này là kết quả trong các đề tài nghiên cứu khoa học được nhà nước tài trợ, hoặc được doanh nghiệp tài trợ và cho phép mở cho cộng đồng dùng.


Một số công ty có những bộ dữ liệu họ xây dựng riêng, phục vụ nhu cầu kinh doanh của họ. Những bộ dữ liệu như vậy thường không được công bố.


Việc xây dựng dữ liệu ngôn ngữ có gán nhãn là một công việc đòi hỏi nhiều thời gian và sức lực và cả tri thức ngôn ngữ. Trong quá trình gán nhãn, nhiều vấn đề nhập nhằng hoặc chưa rõ thường sẽ nảy sinh. Chúng chỉ có thể giải quyết được thông qua tri thức chuyên gia, không những của chuyên gia ngôn ngữ, mà còn cả chuyên gia thuộc lĩnh vực dữ liệu gán nhãn (ví dụ chuyên gia tài chính, ngân hàng nếu dữ liệu đang làm thuộc lĩnh vực đó).


Nếu người xây dựng dữ liệu không phải là chuyên gia (sinh viên ngôn ngữ chẳng hạn) thì có lẽ họ chỉ có thể xây dựng được những bộ dữ liệu đơn giản, chẳng hạn tách các câu trong văn bản. Những tác vụ này có độ khó không cao, nhiều người làm được. Còn giả sử việc gán nhãn cần làm là phân tích câu thành các thành phần (chủ ngữ, vị ngữ, các thành phần phụ, vân vân) thì có lẽ người gán nhãn cần có kiến thức tương đối vững về ngữ pháp, nếu không thì khả năng gán nhãn sai là cao.


Trả lời

Chào em,


Ở Việt Nam có lẽ chỉ có tổ chức VLSP là cung cấp kho dữ liệu miễn phí cho cộng đồng sử dụng trong các bài toán nghiên cứu và giảng dạy. Những kho dữ liệu này là kết quả trong các đề tài nghiên cứu khoa học được nhà nước tài trợ, hoặc được doanh nghiệp tài trợ và cho phép mở cho cộng đồng dùng.


Một số công ty có những bộ dữ liệu họ xây dựng riêng, phục vụ nhu cầu kinh doanh của họ. Những bộ dữ liệu như vậy thường không được công bố.


Việc xây dựng dữ liệu ngôn ngữ có gán nhãn là một công việc đòi hỏi nhiều thời gian và sức lực và cả tri thức ngôn ngữ. Trong quá trình gán nhãn, nhiều vấn đề nhập nhằng hoặc chưa rõ thường sẽ nảy sinh. Chúng chỉ có thể giải quyết được thông qua tri thức chuyên gia, không những của chuyên gia ngôn ngữ, mà còn cả chuyên gia thuộc lĩnh vực dữ liệu gán nhãn (ví dụ chuyên gia tài chính, ngân hàng nếu dữ liệu đang làm thuộc lĩnh vực đó).


Nếu người xây dựng dữ liệu không phải là chuyên gia (sinh viên ngôn ngữ chẳng hạn) thì có lẽ họ chỉ có thể xây dựng được những bộ dữ liệu đơn giản, chẳng hạn tách các câu trong văn bản. Những tác vụ này có độ khó không cao, nhiều người làm được. Còn giả sử việc gán nhãn cần làm là phân tích câu thành các thành phần (chủ ngữ, vị ngữ, các thành phần phụ, vân vân) thì có lẽ người gán nhãn cần có kiến thức tương đối vững về ngữ pháp, nếu không thì khả năng gán nhãn sai là cao.


vâng, em cảm ơn thầy :)