Data Cleaning là gì?
- Read more about Data Cleaning là gì?
- Log in or register to post comments
Một số trang web có thể chứa một lượng rất lớn dữ liệu vô giá, như giá cổ phiếu, chi tiết sản phẩm, số liệu thống kê thể thao, thông tin liên hệ của công ty, v.v...
Nếu muốn truy cập thông tin này, bạn phải sử dụng bất kỳ định dạng nào mà trang web sử dụng hoặc sao chép và dán thông tin theo cách thủ công vào một tài liệu mới. Quá trình này gọi là web scraping hay data scraping. Vậy web scraping là gì và nó có thể giúp ích ra sao?
Một Data Pipeline sẽ thực hiện các nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. Các Data Pipeline hiện đại tự động hóa quy trình ETL (trích xuất, chuyển đổi, tải) và bao gồm cả nhập liệu, xử lý, lọc, chuyển đổi và di chuyển trên bất kỳ kiến trúc đám mây nào, đồng thời bổ sung thêm các lớp phục hồi chống lại sự cố.
Trong thời đại của IoT (Internet of Things) khối lượng dữ liệu sẵn có tăng với tốc độ chóng mặt dẫn tới nhu cầu cấp thiết của một hệ thống phân tích hiệu quả. Ngoài ra, sự đa dạng của các dữ liệu tới từ nhiều nguồn và nhiều định dạng khác nhau, chẳng hạn như các cảm biến, bản ghi, dữ liệu có cấu trúc từ một RDBMS... và cần có một pipepline phân tích hiệu quả mà có thể trả về các dữ liệu có giá trị giúp cho các bài toán kinh tế. Bài viết này tìm hiểu cách tạo ra một pipeline như vậy với các công nghệ tiên tiến nhất hiện nay.