“Exploratory Data Analysis – EDA là một phương pháp tiếp cận linh hoạt trong lĩnh vực khoa học dữ liệu. Phương pháp này cho phép khám phá ra những điều mà chúng ta nghĩ là không có và có thể tin là có. Nó yêu cầu sự sẵn sàng để thử nghiệm các giả thuyết và mở rộng sự hiểu biết về dữ liệu” – Đây là định nghĩa của John W.Tukey – một nhà toán học và thống kê người Mỹ. Vậy thực chất EDA là gì? Nó có vai trò như thế nào đối với doanh nghiệp trong thời kỳ dữ liệu bùng nổ?
Giới thiệu về EDA
EDA – phân tích dữ liệu thăm dò là quá trình mô tả dữ liệu bằng các kỹ thuật thống kê và trực quan hoá nhằm tập trung vào các khía cạnh quan trọng của dữ liệu để tiếp tục phân tích. Điều này bao gồm cả việc kiểm tra tập dữ liệu từ nhiều góc độ, mô tả và tóm tắt nó mà không đưa ra bất kỳ giả định nào khác về nội dung của nó. EDA là một bước quan trọng cần phải thực hiện trước khi đi sâu vào mô hình thống kê hoặc học máy.
Các loại EDA
Có 4 loại phân tích dữ liệu khám phá:
- Đơn biến phi đồ hoạ
- Đa biến phi đồ hoạ
- Đồ hoạ đơn biến
- Đồ hoạ đa biến
Đơn biến phi đồ hoạ
Đây là hình thức đơn giản nhất của phân tích dữ liệu. Trong quá trình này, chúng ta chỉ cần sử dụng một biến để nghiên cứu thông tin. Mục tiêu chính của EDA đơn biến phi đồ hoạ là hiểu về các đặc trưng cơ bản về dữ liệu mẫu và phân phối từ đó đưa ra các quan sát, nhận xét về quần thể mà dữ liệu đó đại diện. Phát hiện các ngoại lệ cũng là một phần của phân tích. Các đặc điểm của quần thể bao gồm:
- Xu hướng trung tâm: Theo hướng trung tâm hoặc các vị trí phân phối liên quan đến các giá trị điển hình hoặc trung bình. Các thước đo thường được sử dụng là các thống kê được gọi là trung bình, trung vị và đôi khi là mode. Thước đo phổ biến nhất là trung bình. Đối với phân phối lệch hoặc có dự đoán về các ngoại lệ, trung vị sẽ là thước đo được ưa chuộng sử dụng.
- Phạm vi: Là chỉ số cho biết khoảng cách chúng ta có thể tìm kiếm các giá trị thông tin so với mức trung bình. Độ lệch chuẩn và phương sai là 2 thước đo hữu ích của phạm vi.
- Độ lệch và độ nhọn: Đây là 2 chỉ số đơn biến. Độ lệch là chỉ số đo độ không đối xứng và độ nhọn là một chỉ số tinh vi hơn về độ cao so với phân phối chuẩn.
Đa biến phi đồ hoạ
Phương pháp phân tích dữ liệu đa biến phi đồ hoạ thường được sử dụng để hiển thị mối quan hệ giữa hai hoặc nhiều biến bằng hình thức bảng chéo hoặc thống kê.
- Đối với dữ liệu phân loại: một phần mở rộng của bảng được gọi là bảng chéo hữu ích. Đối với 2 biến, ưu tiên lập bảng chéo bằng cách tạo một bảng 2 chiều với tiêu đề cột khớp với số lượng của một biến, tiêu đề hàng khớp với số lượng của 2 biến đối diện. Sau đó, điền vào tổng số đối tượng có chung 1 biến, cặp cấp độ tương đương.
- Đối với mỗi biến phân loại và một biến định lượng: Tạo thống kê cho các biến định lượng riêng biệt cho từng cấp độ của biến cụ thể. Sau đó, so sánh các số liệu thống kê trên số lượng biến định lượng.
- So sánh giá trị trung bình là một phiên bản không chính thức của phân tích phương sai ANOVA. So sánh giá trị trung vị là phiên bản mạnh mẽ của phân tích phương sai một chiều.
Đồ hoạ đơn biến
Các phương pháp phi đồ hoạ mang tính định lượng và khách quan, chúng không thể đưa ra bức tranh hoàn chỉnh về dữ liệu. Do đó, các phương đồ hoạ được ứng dụng nhiều hơn. Các loại đồ hoạ đơn biến phổ biến là:
- Biểu đồ tần số (histogram): Đồ thị cơ bản nhất là biểu đồ tần số. Biểu đồ cột trong đó mỗi cột đại diện cho tần suất (số lượng) hoặc tỷ lệ (số lượng/tổng số lượng) của các trường hợp cho một phạm vi giá trị. Biểu đồ tần số là một trong những cách đơn giản nhất để tìm hiểu về dữ liệu như: trung bình, phân tán, đa chủng, ngoại lệ,…
- Biểu đồ thân lá (Stem-and-leaf plots): Tương tự như biểu đồ tần số, nó lấy tất cả các giá trị dữ liệu và hình dạng của phân phối.
- Biểu đồ hộp (Box Plots): Biểu đồ phù hợp để trình bày các thông tin về trung bình, hiển thị các độ đo về vị trí và phân tán, cung cấp thông tin về đối xứng và ngoại lệ mặc dù chúng có thể dẫn đến sai lệch về đa chủng.
- Biểu đồ Quantile-normal: Đây là kỹ thuật EDA đơn biến phức tạp nhất. Nó được gọi là biểu đồ quantile-normal QN hoặc chính xác hơn là biểu đồ quantile-quantile QQ. Biểu đồ này được sử dụng để xem xét mức độ một mẫu cụ thể tuân theo phân phối lý thuyết cụ thể. Nó cho phép phát hiện ra nhưng sai lệch và chuẩn đoán được độ lệch và độ nhọn.
Đồ hoạ đa biến
Đồ hoạ đa biến sử dụng đồ hoạ để hiển thị mối quan hệ giữa hai hoặc nhiều tập dữ liệu. Cách sử dụng phổ biến nhất là biểu đồ thanh nhóm, với mỗi nhóm đại diện cho một cấp độ của trong các biến và mỗi thanh trong nhóm đại diện cho số lượng của biến khác. Các loại đồ hoạ đa biến phổ biến bao gồm:
- Biểu đồ phân tán: Đối với 2 biến số định lượng, kỹ thuật phân tích dữ liệu trực quan cơ bản là biểu đồ phân tán. Một biến trên trục x, một biến trên trục y và điểm nối cho mỗi trường hợp trong tập dữ liệu.
- Biểu đồ thời gian: Đây là biểu đồ đường của dữ liệu được vẽ theo thời gian.
- Biểu đồ nhiệt: Đây là biểu diễn đồ hoạ của dữ liệu, trong đó các giá trị được miêu tả bằng màu sắc.
- Biểu đồ đa biến: Đây là biểu đồ biểu diễn đồ hoạ của mối quan hệ giữa các yếu tố phản hồi
- Biểu đồ bong bóng: Đây là một phương tiện trực quan hoá dữ liệu hiển thị nhiều hình tròn (bong bóng) trong một đồ thị 2 chiều.
Phương pháp phân tích dữ liệu EDA là một phương pháp quan trọng khi phân tích sâu dữ liệu. Bạn cần chọn được phương pháp EDA phù hợp trước khi đi vào phân tích.