دریاچهی داده مخزنی متمرکز و بسیار مقیاسپذیر است که امکان ذخیرهسازی هر نوع داده — ساختاریافته، نیمهساختاریافته و غیرساختاریافته — را در فرمت خام و در مقیاس کلانداده فراهم میکند. داده بدون نیاز به تعریف طرحوارهی پیشین وارد میشود و ساختار آن تنها هنگام خواندن و تحلیل تعیین میگردد (schema-on-read).
چرا دریاچهی داده؟
- ذخیرهسازی کمهزینهی حجم عظیم دادهی خام برای کاربردهای آینده
- پشتیبانی از دادهی متنوع: لاگ، تصویر، ویدئو، متن، سنسور و رویداد
- بستر مناسب برای علم داده، یادگیری ماشین و تحلیل اکتشافی
- انعطاف در انتخاب موتور پردازشی روی دادهی ذخیرهشده
خطر باتلاق داده
بدون حاکمیت، کاتالوگبندی و کنترل کیفیت، دریاچهی داده بهسرعت به یک «باتلاق داده» (Data Swamp) تبدیل میشود؛ مخزنی پر از دادهای که هیچکس از محتوا، منشأ و قابلاعتماد بودن آن آگاه نیست. به همین دلیل کاتالوگ داده و تبارشناسی داده ضروری هستند.
کاربردها
- آموزش مدلهای یادگیری ماشین روی دادهی خام و متنوع
- تحلیل لاگ و رویداد در مقیاس کلان
- نگهداری دادهی تاریخی برای تحلیلهای آینده
دریاچهی داده پتانسیل عظیمی است، اما تنها با حاکمیت و کاتالوگ مناسب از باتلاق شدن نجات مییابد.
تیم مهندسی دادهی GoldData در طراحی دریاچهی دادهی حاکمیتپذیر، همراه با کاتالوگ و تبارشناسی، به سازمانها کمک میکند تا دادهی خام به دارایی قابلاتکا بدل شود.