Xử lý dữ liệu

Data Cleaning là gì?

Body
Dữ liệu sạch và chất lượng đánh bại ngay cả những thuật toán phức tạp nhất. Nếu không làm sạch dữ liệu, các mô hình của bạn sẽ mang lại kết quả sai lệch và gây hại nghiêm trọng cho quá trình ra quyết định.

Web Scraping là gì? Web Scraping được sử dụng để làm gì?

Body

Một số trang web có thể chứa một lượng rất lớn dữ liệu vô giá, như giá cổ phiếu, chi tiết sản phẩm, số liệu thống kê thể thao, thông tin liên hệ của công ty, v.v...

Nếu muốn truy cập thông tin này, bạn phải sử dụng bất kỳ định dạng nào mà trang web sử dụng hoặc sao chép và dán thông tin theo cách thủ công vào một tài liệu mới. Quá trình này gọi là web scraping hay data scraping. Vậy web scraping là gì và nó có thể giúp ích ra sao?

Dòng chảy dữ liệu (Data Pipeline) là gì?

Body

Data Pipeline là gì?

Một Data Pipeline sẽ thực hiện các nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. Các Data Pipeline hiện đại tự động hóa quy trình ETL (trích xuất, chuyển đổi, tải) và bao gồm cả nhập liệu, xử lý, lọc, chuyển đổi và di chuyển trên bất kỳ kiến ​​trúc đám mây nào, đồng thời bổ sung thêm các lớp phục hồi chống lại sự cố.

Làm thế nào để xây dựng một pipeline phân tích xử lý Big Data

Body

Mục tiêu

Trong thời đại của IoT (Internet of Things) khối lượng dữ liệu sẵn có tăng với tốc độ chóng mặt dẫn tới nhu cầu cấp thiết của một hệ thống phân tích hiệu quả. Ngoài ra, sự đa dạng của các dữ liệu tới từ nhiều nguồn và nhiều định dạng khác nhau, chẳng hạn như các cảm biến, bản ghi, dữ liệu có cấu trúc từ một RDBMS... và cần có một pipepline phân tích hiệu quả mà có thể trả về các dữ liệu có giá trị giúp cho các bài toán kinh tế. Bài viết này tìm hiểu cách tạo ra một pipeline như vậy với các công nghệ tiên tiến nhất hiện nay.