پرش به محتوای اصلی
مهندسی داده

ETL

ETL (Extract, Transform, Load)

فرایند سه‌مرحله‌ای استخراج داده از منابع، پاک‌سازی و تبدیل آن، و سپس بارگذاری در انبار داده یا مقصد تحلیلی.

ETL مخفف Extract، Transform و Load است؛ یک الگوی کلاسیک و پرکاربرد در مهندسی داده که طی آن داده از منابع پراکنده (پایگاه‌های داده عملیاتی، فایل‌ها، APIها و سامانه‌های سازمانی) استخراج می‌شود، سپس در یک لایه‌ی میانی پاک‌سازی، استانداردسازی و تبدیل می‌گردد و در نهایت در یک مقصد تحلیلی مانند انبار داده بارگذاری می‌شود.

سه مرحله‌ی اصلی چگونه کار می‌کنند؟

  • استخراج (Extract): خواندن داده از منابع ناهمگن به‌صورت دسته‌ای (batch) یا تدریجی (incremental) بدون تحمیل بار سنگین بر سامانه‌ی مبدأ.
  • تبدیل (Transform): پاک‌سازی، حذف داده‌های تکراری، یکسان‌سازی فرمت‌ها، اعمال قواعد کسب‌وکار، غنی‌سازی و کنترل کیفیت داده.
  • بارگذاری (Load): نوشتن داده‌ی آماده در انبار داده، دیتامارت یا پایگاه تحلیلی، معمولاً با مدل ابعادی (ستاره یا دانه‌برف).

چه زمانی ETL مناسب است؟

ETL هنگامی برتری دارد که داده پیش از ورود به مقصد باید به‌شدت پاک و یکپارچه شود، الزامات انطباق و حریم خصوصی ایجاب می‌کند که داده‌ی حساس قبل از بارگذاری ماسک یا حذف شود، یا ظرفیت محاسباتی مقصد محدود است و نمی‌خواهیم پردازش سنگین را به آن بسپاریم.

مزایا

  • کنترل کیفیت و حاکمیت داده پیش از ورود به انبار
  • کاهش حجم و هزینه‌ی ذخیره‌سازی با نگه‌داشتن صرفاً داده‌ی پالایش‌شده
  • امکان اعمال قواعد امنیتی و رمزنگاری حین انتقال در لایه‌ی تبدیل
در عمل، انتخاب میان ETL و ELT به جای یک تصمیم ایدئولوژیک، یک تصمیم معماری بر اساس محل پردازش، حساسیت داده و هزینه است.

محصول GoldData Gateway امکان طراحی جریان‌های ETL سازمانی با اتصال‌دهنده‌های متنوع، رمزنگاری حین انتقال، زمان‌بندی و مانیتورینگ کامل را فراهم می‌کند تا تیم‌های داده بدون کدنویسی گسترده، پایپلاین‌های قابل‌اعتماد بسازند.

آماده‌اید داده را به طلا تبدیل کنید؟

با کارشناسان گلدیتا درباره‌ی نیاز سازمان خود گفت‌وگو کنید؛ از معماری داده تا استقرار هوش مصنوعی، کنار شما هستیم.