Khai phá dữ liệu (Data Mining) là gì? Những đặc điểm cần lưu ý

Khái niệm

Khai phá dữ liệu, tiếng Anh gọi là data mining.

Khai phá dữ liệu là qui trình mà các doanh nghiệp sử dụng để biến những dữ liệu thô thành thông tin hữu ích. Bằng cách dùng phần mềm để tìm mẫu hình trong các tập dữ liệu, doanh nghiệp có thể hiểu hơn về khách hàng của họ và phát triển được những chiến lược marketing hiệu quả, giúp tăng doanh thu và giảm chi phi.

Việc khai phá dữ liệu phụ thuộc vào việc thu thập dữ liệu một cách hiệu quả, lưu trữ kho dữ liệu và xử lí máy tính.

Hiểu rõ hơn về khai phá dữ liệu

Khai phá dữ liệu bao gồm việc tìm tòi và phân tích các khối dữ liệu lớn để chắt lọc ra được những mẫu hình và xu hướng có ý nghĩa. Nó được sử dụng trong nhiều mục đích khác nhau như tiếp thị theo cơ sở dữ liệu, quản trị rủi ro tín dụng, phòng chống gian lận, lọc mail rác, hoặc đơn giản là để tìm hiểu tâm lí và ý kiến của người dùng.

Qui trình khai phá dữ liệu được phân ra thành 5 bước chính. 

- Đầu tiên, các tổ chức sẽ phải thu thập dữ liệu và tải chúng lên kho dữ liệu. 

- Tiếp đến, họ sẽ lưu giữ và quản lí những dữ liệu này trên server riêng hoặc trên một dịch vụ điện toán đám mây. 

- Những nhà phân tích kinh doanh, đội ngũ quản lí và các chuyên gia công nghệ thông tin sẽ truy cập vào dữ liệu và xác định xem họ sẽ tổ chức chúng như thế nào.

- Và rồi ứng dụng phần mềm sẽ thực hiện sắp xếp lại dữ liệu dựa theo kết quả của người dùng. 

- Cuối cùng thì các chương trình dành cho người dùng đầu cuối sẽ thể hiện những dữ liệu này dưới một định dạng đơn giản và dễ chia sẻ như là đồ thị hoặc bảng thống kê.

Ví dụ về khai phá dữ liệu

Những cửa hàng tạp hóa là những người dùng phổ biến nhất của kĩ thuật khai phá dữ liệu. Nhiều siêu thị phát hành thẻ thành viên miễn phí cho khách hàng để cung cấp nhiều chương trình giảm giá mà những khách hàng không phải thành viên sẽ không có.

Thẻ thành viên này giúp cho cửa hàng theo dõi được khách hàng đang mua mặt hàng nào, ở đâu và với giá nào. Sau khi thực hiện phân tích thì cửa hàng có thể sử dụng dữ liệu này để tặng khách hàng những phiếu giảm giá dựa theo thói quen tiêu dùng của họ và làm cơ sở để quyết định được là khi nào nên giảm giá hàng và khi nào thì không.

Khai phá dữ liệu cũng trở thành một nguyên nhân gây lo ngại nếu doanh nghiệp chỉ sử dụng một số thông tin được chọn, không có khả năng đại diện cho một tổng thể lớn hơn, để chứng minh cho một giả thuyết nào đó.

(Theo Investopedia)

Category