Data Lake là gì ?
Data Lake (Hồ dữ liệu) là nơi đặt tất cả các doanh nghiệp dữ liệu (có thể) muốn thu thập, lưu trữ, phân tích và biến thành hiểu biết và hành động, bao gồm dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc. Data Lake (Hồ dữ liệu) được thiết kế để phân tích dữ liệu lớn (Big Data) và để giải quyết thách thức các silo dữ liệu trong dữ liệu lớn (Big Data).
Khác với Data Warehouse, Data warehouse biến đổi và phân loại dữ liệu từ các nguồn khác nhau của doanh nghiệp. Dữ liệu này sẽ sẵn sàng để phục vụ cho các mục đích khác, đặc biệt là báo cáo và phân tích. Còn Data lake lưu trữ dữ liệu chưa qua phân tích và giữ trong trạng thái thô. Những dữ liệu này cần được xử lý thêm khi có nhu cầu sử dụng.
CÁC DATA LAKE (HỒ DỮ LIỆU) LÀ MỘT GIẢI PHÁP KẾT THÚC SỰ NGĂN CÁCH GIỮA CÁC SILO DỮ LIỆU TRONG MỘT VŨ TRỤ DỮ BIG DATA ĐANG PHÁT TRIỂN NHANH VÀ NGÀY CÀNG KHÔNG CÓ CẤU TRÚC.
Chỉ cần nhìn vào IoT (Internet of Things), nơi chủ yếu là Internet vạn vật công nghiệp đã sẵn sàng để phát triển nhanh chóng trong những năm tới.
Cùngvới sự tăng trưởng đó thực sự xuất hiện nhiều dữ liệu hơn hoặc tốt hơn: dữ liệu là những gì chúng ta đang có sau Internet of Things, để có được những hiểu biết lớn và thúc đẩy các hành động và hoạt động liên quan để đạt được bất kỳ kết quả nào: phân tích dữ liệu lớn (Big Data) với mục đích; dữ liệu thông minh cho các ứng dụng thông minh – và tất nhiên là trí tuệ nhân tạo để hiểu được tất cả dữ liệu đó.
Theo truyền thống, dữ liệu đã được lưu trữ trong các silo trên toàn tổ chức và hệ sinh thái nơi nó hoạt động (dữ liệu ngoài). Đó là một thách thức: bạn không thể kết hợp đúng dữ liệu để thành công trong một dự án dữ liệu lớn (Big Data) nếu dữ liệu đó có một chút ở mọi nơi trong và ngoài đám mây .
Một số lợi ích của Data Lake bao gồm:
- Khả năng lấy giá trị từ các loại dữ liệu không giới hạn
- Khả năng lưu trữ tất cả các loại dữ liệu có cấu trúc và không cấu trúc trong một hồ dữ liệu, từ dữ liệu CRM đến các bài đăng trên phương tiện truyền thông xã hội
- Linh hoạt hơn nữa, bạn không cần phải có tất cả các câu trả lời
- Khả năng lưu trữ dữ liệu thô Bạn có thể tinh chỉnh nó khi sự hiểu biết và hiểu biết của bạn được cải thiện
- Không giới hạn cách thức truy vấn dữ liệu
- Áp dụng nhiều công cụ khác nhau để hiểu rõ hơn về ý nghĩa của dữ liệu
- Loại bỏ các silo dữ liệu rời rạc.
- Truy cập dữ liệu được dân chủ hóa thông qua một chế độ xem thống nhất về dữ liệu trong toàn tổ chức khi sử dụng nền tảng quản lý dữ liệu hiệu quả
Phân tích nâng cao với Data Lake
Bạn có thể thấy một Data Lake (Hồ dữ liệu) thực sự giống như một hồ nước, không có thiên nga và nước tron đó. Nó không giống như một cái hồ. Nhưng cơ bản ý tưởng là thế này: một Data Lake (Hồ dữ liệu) lớn về bản chất là một kho lưu trữ chứa vô số dữ liệu ở định dạng thô, nguyên gốc của chúng.
Các phương pháp quản lý dữ liệu truyền thống không phù hợp (hoặc cần nhiều tiền) để xử lý dữ liệu lớn (Big Data) và phân tích dữ liệu lớn (Big Data) . Với các phân tích dữ liệu lớn (Big Data) về cơ bản, chúng ta muốn tìm mối tương quan giữa các bộ dữ liệu khác nhau cần được kết hợp để đạt được kết quả kinh doanh của chúng ta . Và nếu các bộ dữ liệu này nằm trong các hệ thống hoàn toàn khác nhau, điều đó gần như không thể.
Một ví dụ về mục tiêu như vậy có thể là kết hợp dữ liệu liên quan đến khách hàng từ một nguồn với dữ liệu từ các nguồn khác và thậm chí dữ liệu dường như không liên quan (ví dụ: dữ liệu giao thông, dữ liệu thời tiết, dữ liệu về khách hàng dường như không liên quan đến doanh nghiệp của chúng ta ) với hành động theo họ để nâng cao trải nghiệm của khách hàng, đưa ra các dịch vụ mới hoặc đơn giản là bán nhiều hơn.
Để làm cho điều này rõ ràng hơn, chúng ta hãy quay lại hình ảnh của một hồ nước thực sự. Một cái hồ không được lấp đầy như kiểu như là đổ nước vào hoặc bơm từ dưới lên. Thông thường có sẽ những dòng sông hoặc dòng suối nhỏ hơn mang nước đến đó.
Trong một Data Lake (Hồ dữ liệu) tương tự xảy ra. Điều này còn được gọi là nhập dữ liệu, bất kể nguồn hoặc cấu trúc. chúng ta thu thập tất cả dữ liệu chúng ta cần để đạt được mục tiêu của mình thông qua các phân tích dữ liệu được đề cập.
Các ‘luồng’ dữ liệu này có nhiều định dạng: dữ liệu có cấu trúc (nói đơn giản là dữ liệu từ cơ sở dữ liệu quan hệ truyền thống hoặc thậm chí bảng tính: hàng và cột) , dữ liệu phi cấu trúc (xã hội, video, email, văn bản, cách ly) , dữ liệu từ tất cả các loại các bản ghi (ví dụ: nhật ký web, phân tích nhấp chuột, dữ liệu ) , XML, dữ liệu Machine to Machine, IoT và dữ liệu cảm biến ,bạn đặt tên cho nó (nhật ký và XML cũng được gọi là dữ liệu bán cấu trúc).
Chúng cũng liên quan đến các loại dữ liệu khác nhau từ góc độ ngữ cảnh: dữ liệu khách hàng, dữ liệu từ các ứng dụng kinh doanh, dữ liệu bán hàng, v.v. (được nhập vào Data Lake (Hồ dữ liệu) thông qua API) . Và, rõ ràng chúng ta ngày càng có dữ liệu ngoài (nguồn) mà chúng ta muốn tận dụng để đạt được mục tiêu của mình.
Sử dụng các Data Lake
Tất cả dữ liệu này, theo như nó có thể hoặc có thể có ý nghĩa, được lưu trữ trong Data Lake (Hồ dữ liệu) trong khi nó vẫn tiếp tục, thông qua Giao thức giao diện ứng dụng (API), cung cấp dữ liệu từ tất cả các loại ứng dụng và hệ thống hoặc thông qua các quy trình hàng loạt.
Kích thước lưu trữ là phần quan trọng nhất . Và trong cách tiếp cận Data Lake (Hồ dữ liệu) lớn, thực tế này có nghĩa là không có silo. Điều này, do đó, có nghĩa là chúng ta đã sẵn sàng để bắt đầu công việc thú vị: phân tích dữ liệu lớn (Big Data) .
Để quay lại ví dụ của chúng ta về việc kết hợp các bộ dữ liệu đôi khi dường như không liên quan, chúng ta có thể phát hiện các mẫu (sử dụng trí tuệ nhân tạo) giữa hành vi mua và mẫu thời tiết, giữa dữ liệu khách hàng từ một nguồn và dữ liệu khách hàng từ một nguồn khác, giữa lưu lượng dữ liệu và dữ liệu ô nhiễm, danh sách đi về. chúng ta cố gắng để giữ cho nó đơn giản. Bạn có thể làm gì với những mẫu này?
Nhiều như bạn có thể tưởng tượng và có rất nhiều ví dụ sử dụng dữ liệu lớn (Big Data) trong chương trình thực tế, đó là nơi mà doanh nghiệp hoặc mục tiêu khác của bạn xuất hiện.
Rõ ràng phân tích là không đủ. Bạn cũng cần hình dung, hiểu và hành động theo những gì bạn đã phân tích. Hoặc như infographic từ EMC về cách các Data Lake (Hồ dữ liệu) hoạt động bên dưới đặt nó: dòng chảy của nước là dữ liệu được phân tích, từ đó dẫn đến hành động dẫn đến hiểu biết trong kinh doanh.
Data Lake và những thách thức
Có nhiều lợi ích hơn của các Data Lake (Hồ dữ liệu) lớn, nhưng như thường lệ, chúng ta không muốn quá đi sâu vào kỹ thuật. Và, như thường lệ, có những lợi ích, rủi ro và thách thức cần giải quyết.
Một trong số đó là rủi ro được đề cập rằng các Data Lake (Hồ dữ liệu) có thể trở thành đầm lầy dữ liệu nếu không được thiết kế chiến lược đúng đắn với các mục tiêu cần thiết và làm sạch trong tâm trí. Đây cũng là lý do tại sao các tổ chức chuyển từ cách tiếp cận Data Lake (Hồ dữ liệu) rất truyền thống sang phương pháp hướng đến mục tiêu và hướng đến doanh nghiệp.
Những thách thức đối với Hồ dữ liệu bao gồm:
- Thiếu khả năng thu thập và duy trì siêu dữ liệu, do đó dữ liệu sẽ mất tất cả ngữ cảnh liên quan.
- Không thể duy trì sự liên quan của dữ liệu theo thời gian
- Bảo mật các hồ dữ liệu này
- Quản trị thông tin trong hồ dữ liệu.
Đảm bảo các Data Lake (Hồ dữ liệu) không biến thành đầm lầy dữ liệu
Chúng ta hãy nhìn sâu hơn vào những đầm lầy dữ liệu đó. Như đã nói, trong những ngày đầu của các Data Lake (Hồ dữ liệu), trọng tâm tập trung rất nhiều vào khía cạnh khối lượng của dữ liệu lớn (Big Data) và nhiều tổ chức trên thực tế đã sử dụng các Data Lake (Hồ dữ liệu) làm nơi để đổ dữ liệu vào đó mà không kiểm soát hay quản lý.
Điều này dẫn đến hiện tượng đầm lầy dữ liệu – và các thuật ngữ tương tự về cơ bản thể hiện rằng thay vì các Data Lake (Hồ dữ liệu) sạch đẹp với các cách thích hợp cần thiết để giữ sạch chúng đã biến thành các dữ liệu sử dụng được. Các nhà phân tích nhanh chóng chỉ ra rằng các ý tưởng Data Lake (Hồ dữ liệu) đã thất bại ở những ngày đầu tiên. Nghiên cứu của Eckerson Group cho thấy các doanh nghiệp ngày nay đang cho phép người dùng doanh nghiệp của họ tận dụng lợi thế của Data Lake (Hồ dữ liệu) của họ.
Thậm chí ngày nay chúng ta vẫn nghe thấy các tổ chức hỏi những câu hỏi sai như ‘tôi có nên thay thế Data Warehouse của mình bằng một Data Lake (Hồ dữ liệu) không? Data Lake (Hồ dữ liệu) thường vẫn được so sánh với EDW (và dữ liệu tổng hợp) . Mặc dù hiểu được sự khác biệt là điều quan trọng, câu hỏi nên sử dụng cái gì và khi nào không có nhiều về các công nghệ tốt nhất và, như nhà tư vấn có xu hướng nói, những gì bạn cần thực sự phụ thuộc.
Các mục tiêu của doanh nghiệp thường hướng đến để giải quyết với kho dữ liệu và môi trường phân tích dữ liệu và môi trường kinh doanh thông minh. Vì thế trước khi triển khai các Data Lake, doanh nghiệp cần trả lời những câu hỏi cơ bản sau :
- Những gì chúng ta muốn đạt được với dữ liệu của chúng ta ,
- Làm thế nào chúng ta nhận được nhiều giá trị hơn từ dữ liệu đó (bao gồm cả dữ liệu ngoài) ,
- những Case Study nào chúng ta thấy để kiếm tiền từ dữ liệu thông qua các phân tích nâng cao,
- những kỹ năng chúng ta cần và có để quản trị và sử dụng Data Lake này.
- doanh nghiệp của chúng ta điều khiển dữ liệu như thế nào (thường là liên tục, theo đó chúng ta chuyển từ ‘ít’ sang ‘nhiều hơn’ trừ khi tất nhiên chúng ta là một trong số ít các tổ chức tồn tại vì dữ liệu bắt đầu) ,
- ngày nay chúng ta đang ở đâu (bao gồm cả kỹ năng và văn hóa) và, chắc chắn trong một số ngành hơn là những ngành khác,
- những gì chúng ta cần tính đến dữ liệu nhạy cảm trong một phạm vi quy định (ví dụ: dịch vụ tài chính) ,
- Những gì chúng ta có thể quản lý được hồ dữ liệu này
- …
Nếu chúng ta không có quản trị dữ liệu (Data Gorvernance) được xác định rõ ràng và kho lưu trữ siêu dữ liệu tập trung, Data Lake có thể dễ dàng biến thành một đầm lầy dữ liệu, sẽ là đầy rủi ro và quá rối rắm khi sử dụng nó. Vì thế Khi đã hình dung các ứng dụng một Data Lake (Hồ dữ liệu) trở nên rõ ràng và cách quản trị nó, Chúng ta sẽ hạn chế được việc biến nó thành 1 đầm lầy dữ liệu.
Đồ họa dưới đây đưa ra một vài lý do tại sao các Data Lake (Hồ dữ liệu) biến thành đầm lầy dữ liệu và (do đó) những gì cần phải cân nhắc khi đầu tư.
Kết Luận
Khi các Data Lake (Hồ dữ liệu) trở nên phổ biến, dữ liệu lớn (Big Data) vẫn là một từ thông dụng. Những ngày này – nhiều hơn hoặc ít hơn – hoặc ít nhất, dữ liệu lớn (Big Data) đã trở nên phổ biến. dữ liệu lớn (Big Data) là dữ liệu và câu hỏi là phải làm gì với nó luôn là câu hỏi nhiều người thắc mắc.
Mặc dù đó vẫn là câu hỏi mà hầu hết các chuyên gia vẫn nhận được từ các tổ chức (‘tôi phải làm gì với tất cả dữ liệu đó để hưởng lợi từ nó?’) Sự trưởng thành dữ liệu chung đã tăng lên và các thế hệ chuyên gia mới biết rằng phân tích dữ liệu lớn (Big Data) là mấu chốt của vấn đề gặt hái giá trị và bạn không tiếp cận dữ liệu giống như trước đây trong kho dữ liệu truyền thống.
Tuy nhiên một việc không thể chối cãi đó là Việc sử dụng Dữ liệu lớn đang trở nên phổ biến ngày nay bởi các công ty để vượt trội so với các đối thủ của họ. Trong hầu hết các ngành công nghiệp, các đối thủ cạnh tranh hiện tại và những người mới tham gia sẽ sử dụng các chiến lược phát sinh từ dữ liệu được phân tích để cạnh tranh, đổi mới và nắm bắt giá trị. Các tổ chức rõ ràng cũng đã học được từ những sai lầm trong quá khứ và cuối cùng, trọng tâm hơn nhiều về kết quả và giá trị với trí tuệ nhân tạo và Machine Learning trở nên quan trọng hơn nhiều, cùng với nhu cầu phân tích thời gian thực, phân tích nâng cao, trực quan hóa và cả tiên đoán tương lai.