دیتا کاتالوگ چیست؟
دیتا کاتالوگ (Data Catalog) یک ابزار است که به سازمانها کمک میکند تا دادههای خود را بهطور منظم و سازمانیافته ذخیره، شناسایی و مدیریت کنند. این کاتالوگ میتواند شامل متادیتا (اطلاعات اضافی درباره دادهها) باشد که به کاربران این امکان را میدهد بهراحتی به دادهها دسترسی پیدا کنند، کیفیت دادهها را ارزیابی کنند، و از آنها در تصمیمگیریهای خود استفاده کنند.
از ویژگیهای اصلی دیتا کاتالوگ میتوان به موارد زیر اشاره کرد:
- شناسایی و کشف دادهها: جستوجو میان دادهها و منابع مختلف
- مدیریت متادیتا: ذخیرهی اطلاعاتی مانند نوع دادهها، فرمتها، ساختار و تاریخ تغییرات داده
- دسترسپذیری و همکاری: بهاشتراک گذاری دادهها برای همکاری بینتیمی سادهتر
S3 Data Catalog آروان یک دیتا کاتالوگ مدیریتشده بر پایهی Apache Iceberg است که بهطور مستقیم دادهها و متادیتای آنها را در داخل صندوقچههای فضای ابری ذخیره میکند. این سرویس یک رابط استاندارد Iceberg REST ارایه میدهد تا بتوانید از موتورهایی که پیشتر استفاده میکردید (مانند Spark و PyIceberg) به آن متصل شوید و از صندوقچههای خود مثل یک دیتابیس با ساختاری انعطافپذیر استفاده کنید.
دیتا کاتالوگ آروانکلاد به راحتی امکان تبدیل صندوقچههای فضای ابری را به یک انبار داده (Data Warehouse) برای انواع پردازشهای کاری تحلیلی از جمله تحلیل لاگها، هوش تجاری و پایپلاینهای داده فراهم میکند.
Apache Iceberg چیست؟
Apache Iceberg یک فرمت جدول باز (Open Table Format) است که برای مدیریت دادههای تحلیلی با مقیاس بزرگ که در فضای ابری (Object Storage) ذخیره شدهاند طراحی شده است.
ویژگیهای کلیدی آن موارد زیر است:
- تراکنشهای ACID: اطمینان از خواندن و نوشتن همزمان و قابل اعتماد با یکپارچگی کامل دادهها.
- متادیتای بهینهشده: جلوگیری از اسکنهای کامل جدول با استفاده از متادیتای ایندکسشده برای اجرای سریعتر کوئریها.
- انعطافپذیری ساختار داده (Schema Evolution): امکان اضافه کردن، تغییر نام دادن و حذف ستونها بدون نیاز به بازنویسی دادهها.
Iceberg در حال حاضر بهطور گستردهای توسط موتورهایی مانند Apache Spark ،Trino ،Snowflake ،DuckDB و ClickHouse پشتیبانی میشود.
چرا به دیتا کاتالوگ نیاز دارید؟
اگرچه دیتا و متادیتای Iceberg بهطور مستقیم در فضای ابری ذخیره میشود، لیست جدولها و اشارهگرهای مربوط به متادیتای جاری باید بهشکل مرکزی توسط یک دیتا کاتالوگ مدیریت شوند.
بهطور مشابه، دیتا کاتالوگها با ایجاد دسترسی هماهنگ و منسجم این امکان را برای موتورهای جستوجو مختلف فراهم میکند تا بهطور ایمن از همان جدولها بخوانند و در آنها بنویسند بدون اینکه تداخلی در دادهها یا خرابی اطلاعات ایجاد شود.