SSIS - công cụ quản lý và tích hợp dữ liệu

SSIS là viết tắt của SQL Server Integration Services. Nó là một công cụ quản lý và tích hợp dữ liệu. Các công ty sử dụng SSIS để lưu trữ dữ liệu của họ trong kho, trích xuất và tải dữ liệu, quản lý dữ liệu,..

Tích hợp dữ liệu là một phần thiết yếu của bất kỳ quy trình làm việc nào của công ty. Đó là cách thức dữ liệu của công ty được chuyển giao, lưu trữ và quản lý. Đây là lý do tại sao chỉ những quản trị viên chuyên nghiệp giỏi nhất mới chịu trách nhiệm cho những nhiệm vụ đó. Các doanh nghiệp liên tục tìm kiếm các chuyên gia như vậy - những người này được hứa hẹn một mức lương tuyệt vời, điều kiện làm việc cực kỳ tốt.

Xem thêm: Các câu hỏi phỏng vấn SSIS cho chuyên gia Data Developer

Hãy thử điểm qua một vài tình huống ta cần dùng SSIS.

  1. Khi ta cần tập trung dữ liệu từ nhiều nguồn khác nhau:

Ví dụ như có 1 tập đoàn lớn có nhiều chi nhánh, rải rác ở nhiều nơi trên một quốc gia hay thậm chí nhiều quốc gia khác nhau, họ lưu trữ dữ liệu ở các relational database khác nhau như MySQL, Oracle, SQL Server hay trong file Excel, .txt file hay XML file và họ có nhu cầu tập trung tất cả dữ liệu vào một chỗ để phân tích.

Thậm chí có trường hợp cùng một loại dữ liệu, nhưng lại được lưu trữ ở nhiều database có schema khác nhau, và thậm chí ở nhiều data type khác nhau.

Trong tình huống này SSIS có thể đáp ứng tốt, nó có thể kết nối đến các data source nói trên, thực hiện chuẩn hóa dữ liệu và load dữ liệu đến một database tập trung.

  1. Khi ta cần load dữ liệu cho Data warehouse hay Data Mart.

Khi một công ty đã xây dựng xong một data warehouse hay các Data Mart, họ cần load dữ liệu từ các nguồn khác nhau vào data warehouse này, và dữ liệu thường rất lớn.

SSIS package có thể được cấu hình “restartable”. Điều này có nghĩa là bước load dữ liệu có thể trải qua nhiều step, và khi nó thất bại ở một step nào đó, khi ta chạy lại package, nó sẽ chạy tiếp ở bước đã thất bại, không phải chạy lại từ đầu mất thời gian.

  • SSIS package có thể được dùng để load dữ liệu cho các fact và dimension table.
  • SSIS package có thể thực hiện được các function như sum, average, count…
  • SSIS package có thể kết nối đến Analysis Services để xử lý các cube và dimension
  1. Khi ta cần làm sạch dữ liệu

Trong quá trình transformation data dùng SSIS, ta có thể làm sạch và chuẩn hóa dữ liệu. Bạn có thể tham khảo các bài viết về lookup, fuzzy lookup để biết thêm chi tiết.

Thông thường nó sẽ dò chính xác dùng lookup transformation task trước, nếu không khớp, nó sẽ dùng Fuzzy lookup dò kết quả tương tự.

  1. Khi ta cần xây dựng Business Intelligence vào trong quá trình transformation.

BI có công cụ phân tích dữ liệu PowerBI còn được gọi là seft service, bản thân người có dữ liệu có thể tự xây dựng công cụ phân tích dữ liệu cho mình, rồi chia sẻ nó, cũng có thể phân tích nhiều mức hơn dựa trên phân tích cũ.

  1. Khi ta cần tự động hóa công việc quản trị

Các công việc như backup hàng loạt database, mỗi database đặt trong một thư mục riêng, rồi gửi email thông báo cho database administrator xem công việc thành công hay thất bại…và nhiều công việc quản trị khác, ta có thể làm dễ dàng với SSIS trên một server hay thậm chí nhiều server cùng lúc.

Tham khảo thông tin đầy đủ tại đây: http://msdn.microsoft.com/en-us/library/ms137795(v=sql.105).aspx

Category