Xử lý dữ liệu

Phân tích dữ liệu thăm dò (Exploratory Data Analysis – EDA) là gì?

Read more about Phân tích dữ liệu thăm dò (Exploratory Data Analysis – EDA) là gì?
Log in or register to post comments

Body

EDA (Exploratory Data Analysis – Phân tích Khám phá Dữ liệu) là một bước quan trọng trước khi làm bất kỳ một bài toán ML với dữ liệu dạng bảng nào.

Data Cleaning là gì?

Read more about Data Cleaning là gì?
Log in or register to post comments

Body

Dữ liệu sạch và chất lượng đánh bại ngay cả những thuật toán phức tạp nhất. Nếu không làm sạch dữ liệu, các mô hình của bạn sẽ mang lại kết quả sai lệch và gây hại nghiêm trọng cho quá trình ra quyết định.

Web Scraping là gì? Web Scraping được sử dụng để làm gì?

Read more about Web Scraping là gì? Web Scraping được sử dụng để làm gì?
Log in or register to post comments

Body

Một số trang web có thể chứa một lượng rất lớn dữ liệu vô giá, như giá cổ phiếu, chi tiết sản phẩm, số liệu thống kê thể thao, thông tin liên hệ của công ty, v.v...

Nếu muốn truy cập thông tin này, bạn phải sử dụng bất kỳ định dạng nào mà trang web sử dụng hoặc sao chép và dán thông tin theo cách thủ công vào một tài liệu mới. Quá trình này gọi là web scraping hay data scraping. Vậy web scraping là gì và nó có thể giúp ích ra sao?

Dòng chảy dữ liệu (Data Pipeline) là gì?

Read more about Dòng chảy dữ liệu (Data Pipeline) là gì?
Log in or register to post comments

Body

Data Pipeline là gì?

Một Data Pipeline sẽ thực hiện các nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. Các Data Pipeline hiện đại tự động hóa quy trình ETL (trích xuất, chuyển đổi, tải) và bao gồm cả nhập liệu, xử lý, lọc, chuyển đổi và di chuyển trên bất kỳ kiến trúc đám mây nào, đồng thời bổ sung thêm các lớp phục hồi chống lại sự cố.

Làm thế nào để xây dựng một pipeline phân tích xử lý Big Data

Read more about Làm thế nào để xây dựng một pipeline phân tích xử lý Big Data
Log in or register to post comments

Body

Mục tiêu

Trong thời đại của IoT (Internet of Things) khối lượng dữ liệu sẵn có tăng với tốc độ chóng mặt dẫn tới nhu cầu cấp thiết của một hệ thống phân tích hiệu quả. Ngoài ra, sự đa dạng của các dữ liệu tới từ nhiều nguồn và nhiều định dạng khác nhau, chẳng hạn như các cảm biến, bản ghi, dữ liệu có cấu trúc từ một RDBMS... và cần có một pipepline phân tích hiệu quả mà có thể trả về các dữ liệu có giá trị giúp cho các bài toán kinh tế. Bài viết này tìm hiểu cách tạo ra một pipeline như vậy với các công nghệ tiên tiến nhất hiện nay.

Subscribe to Xử lý dữ liệu