پرش به محتوای اصلی
مهندسی داده

دریاچه داده

Data Lake

مخزنی مقیاس‌پذیر برای ذخیره‌ی هر نوع داده‌ی خام ساختاریافته و غیرساختاریافته در مقیاس کلان و با هزینه‌ی پایین.

دریاچه‌ی داده مخزنی متمرکز و بسیار مقیاس‌پذیر است که امکان ذخیره‌سازی هر نوع داده — ساختاریافته، نیمه‌ساختاریافته و غیرساختاریافته — را در فرمت خام و در مقیاس کلان‌داده فراهم می‌کند. داده بدون نیاز به تعریف طرح‌واره‌ی پیشین وارد می‌شود و ساختار آن تنها هنگام خواندن و تحلیل تعیین می‌گردد (schema-on-read).

چرا دریاچه‌ی داده؟

  • ذخیره‌سازی کم‌هزینه‌ی حجم عظیم داده‌ی خام برای کاربردهای آینده
  • پشتیبانی از داده‌ی متنوع: لاگ، تصویر، ویدئو، متن، سنسور و رویداد
  • بستر مناسب برای علم داده، یادگیری ماشین و تحلیل اکتشافی
  • انعطاف در انتخاب موتور پردازشی روی داده‌ی ذخیره‌شده

خطر باتلاق داده

بدون حاکمیت، کاتالوگ‌بندی و کنترل کیفیت، دریاچه‌ی داده به‌سرعت به یک «باتلاق داده» (Data Swamp) تبدیل می‌شود؛ مخزنی پر از داده‌ای که هیچ‌کس از محتوا، منشأ و قابل‌اعتماد بودن آن آگاه نیست. به همین دلیل کاتالوگ داده و تبارشناسی داده ضروری هستند.

کاربردها

  • آموزش مدل‌های یادگیری ماشین روی داده‌ی خام و متنوع
  • تحلیل لاگ و رویداد در مقیاس کلان
  • نگه‌داری داده‌ی تاریخی برای تحلیل‌های آینده
دریاچه‌ی داده پتانسیل عظیمی است، اما تنها با حاکمیت و کاتالوگ مناسب از باتلاق شدن نجات می‌یابد.

تیم مهندسی داده‌ی GoldData در طراحی دریاچه‌ی داده‌ی حاکمیت‌پذیر، همراه با کاتالوگ و تبارشناسی، به سازمان‌ها کمک می‌کند تا داده‌ی خام به دارایی قابل‌اتکا بدل شود.

آماده‌اید داده را به طلا تبدیل کنید؟

با کارشناسان گلدیتا درباره‌ی نیاز سازمان خود گفت‌وگو کنید؛ از معماری داده تا استقرار هوش مصنوعی، کنار شما هستیم.