ETL LÀ GÌ

ETL là gì?

Cơ chế trích xuất thông tin từ hệ thống nguồn và đưa vào kho tài liệu thường được hotline là ETL, viết tắt của Extraction, Transformation cùng Loading.

Bạn đang xem: Etl là gì

Quy trình ETL yêu mong đầu vào tích cực và lành mạnh từ các bên liên quan khác nhau, bao hàm nhà vạc triển, công ty phân tích, tín đồ kiểm tra, chủ tịch điều hành số 1 và có tương đối nhiều thách thức về khía cạnh kỹ thuật.

Để bảo trì giá trị của chính nó như một công cụ cho những người ra quyết định, kỹ thuật kho tài liệu cần phải biến đổi cùng với những thay đổi của doanh nghiệp. ETL là một phương pháp định kỳ (hàng ngày, hàng tuần, sản phẩm tháng) của khối hệ thống Kho dữ liệu và cần được nhanh nhẹn, tự động hóa và được ghi chép đầy đủ.

*

ETL chuyển động như cố nào?

ETL bao hàm ba quá trình riêng biệt:

*

Extraction

Trích xuất là vận động trích xuất thông tin từ một khối hệ thống nguồn để thực hiện tiếp trong môi trường thiên nhiên kho dữ liệu. Đây là giai đoạn đầu tiên của quy trình ETL.

Quá trình khai thác thường là 1 trong những trong những quá trình tốn nhiều thời hạn nhất trong ETL.

Các hệ thống nguồn rất có thể phức tạp với kém tài liệu, và do đó, việc khẳng định dữ liệu nào cần được trích xuất rất có thể khó khăn.

Dữ liệu buộc phải được trích xuất các lần theo cách định kỳ để hỗ trợ tất cả dữ liệu đã biến hóa vào kho và luôn cập nhật.

Cleansing

Giai đoạn có tác dụng sạch là rất quan trọng trong kỹ thuật kho dữ liệu vì nó biết đến để nâng cấp chất lượng dữ liệu. Những tính năng làm sạch dữ liệu chính được tìm thấy trong các công gắng ETL là chỉnh sửa và đồng nhất. Chúng ta sử dụng những từ điển rõ ràng để sửa lỗi đánh máy và phân biệt từ đồng nghĩa, cũng giống như làm sạch dựa vào quy tắc nhằm thực thi các quy tắc dành cho miền và xác định các liên kết phù hợp giữa những giá trị.

Các lấy ví dụ sau đây cho biết điều cần thiết của bài toán làm sạch mát dữ liệu:

Nếu doanh nghiệp lớn muốn contact với người tiêu dùng hoặc nhà cung cấp của mình, phải bao gồm một danh sách đầy đủ, đúng đắn và update các showroom liên hệ, showroom email với số điện thoại.

Nếu người tiêu dùng hoặc nhà hỗ trợ gọi, nhân viên phản hồi phải có thể nhanh giường tìm thấy người đó vào cơ sở dữ liệu doanh nghiệp, nhưng điều đó cần tên người gọi hoặc tên doanh nghiệp của họ được liệt kê trong cơ sở dữ liệu.

Xem thêm: Encode Là Gì - Một Vài Thuật Ngữ Về Các Định Dạng Bạn Nên Biết

Nếu tín đồ dùng lộ diện trong cơ sở dữ liệu với nhì hoặc những tên hơi khác nhau hoặc số thông tin tài khoản khác nhau, thì việc update thông tin của bạn sẽ trở nên khó khăn.

Transformation

Chuyển thay đổi là chủ đạo của tiến trình hòa giải. Nó đổi khác các bản ghi từ format nguồn buổi giao lưu của nó thành một định dạng kho tài liệu cụ thể. Nếu họ triển khai kiến ​​trúc ba lớp, thì tiến trình này vẫn xuất ra lớp dữ liệu đã kiểm soát và điều chỉnh của bọn chúng ta.

Các điểm dưới đây phải được khắc phục và hạn chế trong quá trình này:

Văn phiên bản lỏng lẻo hoàn toàn có thể ẩn thông tin có giá trị. Ví dụ: XYZ PVT Ltd thiết yếu hiện cụ thể rằng đấy là một doanh nghiệp Hợp danh hữu hạn.Các format khác nhau có thể được áp dụng cho từng dữ liệu. Ví dụ: dữ liệu rất có thể được lưu dưới dạng một chuỗi hoặc bên dưới dạng ba số nguyên.

Sau đấy là các quy trình chuyển đổi chính nhằm mục đích tạo ra lớp dữ liệu được điều chỉnh:

Chuyển thay đổi và chuẩn hóa hoạt động trên cả định dạng lưu trữ và đơn vị đo lường để triển khai cho dữ liệu đồng nhất.Đối sánh liên kết các trường tương đương trong số nguồn khác nhau.Lựa lựa chọn làm giảm con số trường và phiên bản ghi nguồn.

Quá trình làm sạch và chuyển đổi thường được liên kết chặt chẽ trong những công nạm ETL.

*

Loading

Load là quy trình ghi dữ liệu vào cơ sở dữ liệu đích. Trong cách tải, cần bảo đảm an toàn thực hiện tại tải đúng mực và tốn không nhiều tài nguyên nhất có thể.

Tải hoàn toàn có thể được thực hiện theo nhì cách:

Refresh: tài liệu Kho dữ liệu được viết lại hoàn toàn. Điều này tức là tệp cũ rộng được gắng thế. Làm mới thường được áp dụng kết hợp với trích xuất tĩnh để đưa vào kho dữ liệu ban đầu.

Update: Chỉ những biến đổi áp dụng cho tin tức nguồn new được tiếp tế Kho dữ liệu. Update thường được tiến hành mà ko xóa hoặc sửa đổi tài liệu hiện có. Phương thức này được áp dụng kết hợp với trích xuất tăng dần để cập nhật kho dữ liệu thường xuyên.

Chọn một cơ chế ETL

Lựa lựa chọn một Công ráng ETL phù hợp là một quyết định đặc trưng phải được triển khai trong bài toán lựa chọn tầm đặc trưng của vận dụng ODS hoặc kho dữ liệu. Các công thế ETL được yêu cầu cung ứng quyền truy vấn cập phối kết hợp vào nhiều nguồn dữ liệu để tài liệu liên quan hoàn toàn có thể được trích xuất tự ​​chúng. Một nguyên tắc ETL thường chứa những công cụ để gia công sạch dữ liệu, sắp xếp lại, chuyển đổi, tổng hợp, tính toán và tải tự động hóa thông tin vào cơ sở dữ liệu đối tượng.

Công núm ETL phải hỗ trợ giao diện người tiêu dùng đơn giản có thể chấp nhận được xác định những quy tắc làm cho sạch tài liệu và biến đổi dữ liệu bằng phương pháp sử dụng phương pháp điểm và nhấp. Khi toàn bộ các ánh xạ và phép biến hóa đã được xác định, hình thức ETL sẽ auto tạo ra các chương trình trích xuất / biến hóa / mua dữ liệu, hay chạy ở cơ chế hàng loạt.

Leave a Reply

Your email address will not be published. Required fields are marked *

CÙNG CHUYÊN MỤC MỚI

  • Connect broadband connection là gì

  • Enter network credentials là gì

  • Hgu và sfu là gì

  • Rela có nghĩa là gì

  • x

    Welcome Back!

    Login to your account below

    Retrieve your password

    Please enter your username or email address to reset your password.