Trong quá trình làm nghiên cứu khoa học, việc xuất hiện các giá trị ngoại lai là điều không thể tránh khỏi và là một trong những vấn đề đối với người phân tích dữ liệu. Vậy giá trị ngoại lai (outlier) là gì? Nguyên nhân và cách xử lý như thế nào. Hãy cùng với Marketing Du Ký tìm hiểu ngay trong bài viết này nhé.


    Giá Trị Ngoại Lai (Outlier) Là Gì? Nguyên Nhân Và Cách Xử Lý

    1. Giá trị ngoại lai (outlier) là gì?

    Giá trị ngoại lai là một điểm dữ liệu khác biệt đáng kể so với các điểm dữ liệu còn lại trong tập dữ liệu. Nó có thể là một giá trị quá lớn, quá nhỏ, hoặc không tuân theo xu hướng chung của dữ liệu.

    Ví dụ: Khi tiến hành khảo sát, bạn nhận thấy độ tuổi của đa số đáp viên thường dao động từ 20 đến 30 tuổi. Tuy nhiên, trong mẫu khảo sát bỗng xuất hiện một đáp viên ở độ tuổi 50. Như vậy, đáp viên 50 tuổi này chính là giá trị ngoại lai (outlier) vì có độ tuổi cách xa giá trị trung tâm.

    2. Nguyên nhân xuất hiện giá trị ngoại lai

    Thông thường, giá trị ngoại lai thường xuất hiện bởi một số nguyên nhân sau:

    Sai sót khi thu thập dữ liệu: Bất cẩn trong quá trình thu thập dữ liệu, ví dụ như nhà nghiên cứu ghi chép nhầm hoặc đáp viên chọn nhầm thông tin.

    Sai sót trong quá trình nhập liệu: Nhập sai dữ liệu, phổ biến nhất là việc nhập nhầm số liệu.

    Biến động tự nhiên: Đôi khi, dữ liệu thật sự có sự biến động lớn, và giá trị ngoại lai là một phần hợp lệ của tập dữ liệu.

    3. Khi nào nên loại bỏ giá trị ngoại lai

    Như đã đề cập, giá trị ngoại lai (outlier) đôi khi gây ra một số vấn đề trong quá trình phân tích dữ liệu, dưới đây là một số trường hợp mà bạn cần loại bỏ giá trị ngoại lai.

    3.1. Do lỗi thu thập mẫu hoặc nhập liệu

    Nếu giá trị ngoại lai là kết quả của việc sai sót trong quá trình thu thập mẫu hoặc nhập liệu thì việc loại bỏ chúng là một điều hết sức hợp lý. Trong những trường hợp như vậy, việc loại bỏ hoặc sửa chữa dữ liệu là cần thiết để đảm bảo tính chính xác của quá trình phân tích.

    Ví dụNhập liệu nhầm độ tuổi của đáp viên là 200 thay vì 20.

    3.2. Ảnh hưởng nghiêm trọng đến kết quả phân tích

    Nếu giá trị ngoại lai làm thay đổi đáng kể kết quả của phân tích và bạn có lý do chính đáng để kết luận chúng không đại diện cho tổng thể, bạn có thể cân nhắc loại bỏ chúng. Tuy nhiên, bạn cần phải thận trọng vì việc loại bỏ có thể làm mất đi một số thông tin quan trọng.

    Ví dụTrong nghiên cứu về thu nhập của hộ gia đình, một hộ có thu nhập cực kỳ cao có thể làm sai lệch giá trị trung bình, và nếu mục tiêu là hiểu thu nhập của đa số thì việc loại bỏ có thể được xem là hợp lý.

    3.3. Mô hình thống kê "nhạy cảm" cao

    Trên thực tế, một số mô hình thống kê có mức độ nhạy cảm rất cao đối với giá trị ngoại lai (hồi quy tuyến tính chẳng hạn). Trong những trường hợp như vậy, việc loại bỏ hoặc điều chỉnh giá trị ngoại lai có thể giúp mô hình thống kê được hoạt động một cách tốt hơn.

    4. Khi nào không nên loại bỏ giá trị ngoại lai

    Trên thực tế, không phải lúc nào loại đi giá trị ngoại lai (outlier) cũng là một việc làm đúng đắn. Vậy khi nào không nên loại bỏ giá trị ngoại lai. Hãy cùng Marketing Du Ký tìm hiểu ngay bạn nhé.

    4.1. Giá trị ngoại lai hợp lệ

    Nếu giá trị ngoại lai đại diện cho một hiện tượng thật sự trong tổng thể, việc loại bỏ chúng có thể làm sai lệch đi kết quả nghiên cứu, cũng như các thông tin quan trọng.

    Ví dụTrong nghiên cứu về thu nhập, một số cá nhân có thu nhập rất cao (như CEO doanh nghiệp) là một phần thực tế của dữ liệu và cần được giữ lại để phản ánh đúng sự biến động.

    4.2. Phương pháp phân tích dữ liệu có thể giải quyết

    Một số phương pháp phân tích dữ liệu (các mô hình robust regression) được thiết kế để xử lý dữ liệu có giá trị ngoại lai mà không cần loại bỏ chúng. Do đó, việc giữ lại dữ liệu có thể mang lại kết quả chính xác hơn trong những trường hợp này.

    4.3. Kích thước mẫu nhỏ

    Nếu tập dữ liệu của bạn có kích thước mẫu nhỏ, việc loại bỏ giá trị ngoại lai có thể làm giảm đáng kể số lượng dữ liệu khả dụng, từ đó làm giảm đi sức mạnh của việc phân tích. Trong những lúc này, bạn nên cân nhắc sử dụng các phương pháp thay thế để xử lý giá trị ngoại lai thay cho việc loại bỏ chúng.

    Tóm lại, giá trị ngoại lai là một phần không thể tránh khỏi trong quá trình phân tích dữ liệu. Hy vọng thông qua bài viết này của Marketing Du Ký, bạn đã hiểu được giá trị ngoại lai (outlier) là gì cũng như biết thêm về nguyên nhân và cách xử lý chúng.