Big Data

6 thí dụ thực tế về BUSINESS INTELLIGENCE DASHBOARD

Body
BI Dashboard – Dashboard theo dõi kinh doanh là một công cụ quản lý dữ liệu thông qua hình thức trực quan hóa dữ liệu. KPIs được hiển thị trong các BI Dashboard sinh động và trực quan bằng các biểu đồ đa dạng để người sử dụng có thể nhìn thấu được insights từ số liệu.

Data-centric và Model-centric khác nhau như thế nào?

Body
Code và data đều là những thành phần cốt lõi của một hệ thống AI. Vậy các nhà phát triển nên tập trung vào yếu tố nào hơn? Để giúp bạn có được câu trả lời, bài viết dưới đây sẽ so sánh hai cách tiếp cận Data-centric và Model-centric trong học máy. Hãy đọc đến cuối để tìm thấy một số tips thú vị về cách áp dụng cơ sở hạ tầng tập trung vào dữ liệu (data-centric infrastructure) nhé!

Tổng quan về đường dẫn dữ liệu ETL và ELT

Body
Đường dẫn dữ liệu (ETL (Extract – Transform – Load) hay ELT (Extract – Load – Transform)) thực hiện nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. ETL và ELT đều rất cần thiết trong khoa học dữ liệu, bởi các nguồn thông tin — cho dù chúng sử dụng cơ sở dữ liệu SQL có cấu trúc hay cơ sở dữ liệu NoSQL không cấu trúc — thì đều hiếm khi ở các định dạng tương tự hoặc tương thích với nhau

ETL và ELT: Những sự khác biệt cần phải biết

Body
Đường dẫn dữ liệu (ETL (Extract – Transform – Load) hay ELT (Extract – Load – Transform)) thực hiện nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. ETL và ELT đều rất cần thiết trong khoa học dữ liệu, bởi các nguồn thông tin — cho dù chúng sử dụng cơ sở dữ liệu SQL có cấu trúc hay cơ sở dữ liệu NoSQL không cấu trúc — thì đều hiếm khi ở các định dạng tương tự hoặc tương thích với nhau.

Tách kho dữ liệu với kỹ thuật Sharding/Data Partitioning

Body

Phân chia dữ liệu (Sharding) là một giải pháp chia nhỏ một Database lớn thành nhiều Database nhỏ, ta có thể phân tách từng bảng hoặc cả một DB ra nhiều phần nhỏ đặt ở nhiều máy chủ (server) khác nhau. Điều này sẽ giúp cho hệ thống DB của chúng ta đạt được các tính chất khả năng bảo trì (manageability), hiệu xuất (performance), tính sẵn sàng (availability), và cân bằng tải (load balancing) của ứng dụng. Và giải pháp này cũng giảm chi phí cũng như tính mở rộng (scalability) để scale up DB bằng cách dùng nhiều server nhỏ gộp lại hơn là nâng cấp một server lớn.

Dòng chảy dữ liệu (Data Pipeline) là gì?

Body

Data Pipeline là gì?

Một Data Pipeline sẽ thực hiện các nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. Các Data Pipeline hiện đại tự động hóa quy trình ETL (trích xuất, chuyển đổi, tải) và bao gồm cả nhập liệu, xử lý, lọc, chuyển đổi và di chuyển trên bất kỳ kiến ​​trúc đám mây nào, đồng thời bổ sung thêm các lớp phục hồi chống lại sự cố.

Quản trị dữ liệu (Data governance) trong Doanh nghiệp

Body

Quản trị dữ liệu (QTDL) là sự kết hợp giữa con người, quy trình và kỹ thuật, cho phép một tổ chức, DN có thể tối ưu hóa, bảo vệ và sử dụng các nguồn dữ liệu (cấu trúc và phi cấu trúc) một cách hiệu quả như một tài sản của DN.

1. Vai trò của quản trị dữ liệu