تاریخچه کلیک 

تاتر در ابتدا به قدرت توسعه داده شده است یاندکسمتریکا, دومین بزرگترین پلت فرم تجزیه و تحلیل ترافیک وب در جهان و همچنان بخش اصلی این سیستم است. با بیش از 13 تریلیون رکورد در پایگاه داده و بیش از 20 میلیارد حوادث روزانه, خانه رعیتی اجازه می دهد تا تولید گزارش های سفارشی در پرواز به طور مستقیم از داده های غیر جمع. این مقاله به طور خلاصه اهداف کلیک در مراحل اولیه توسعه خود را پوشش می دهد.

یاندکسمتریکا گزارش های سفارشی در پرواز را بر اساس بازدید ها و جلسات با بخش های دلخواه تعریف شده توسط کاربر ایجاد می کند. انجام این کار اغلب نیاز به ساختمان مجموعه های پیچیده مانند تعداد کاربران منحصر به فرد. اطلاعات جدید برای ساخت یک گزارش می رسد در زمان واقعی است.

همانطور که از مارس 2014, یاندکس.متریکا روزانه حدود 12 میلیارد رویداد (نمایش صفحه و کلیک) را ردیابی کرد. همه این وقایع باید ذخیره شود برای ساخت گزارش های سفارشی. پرس و جو تنها ممکن است نیاز به اسکن میلیون ها ردیف در عرض چند صد میلی ثانیه و یا صدها میلیون ردیف فقط در چند ثانیه.

استفاده در یاندکس.متریکا و سایر خدمات یاندکس 

خانه عروسکی در خدمت اهداف متعدد در یاندکس.متریکا
وظیفه اصلی این است برای ساخت گزارش در حالت اینترنتی با استفاده از داده های غیر جمع. با استفاده از یک خوشه 374 سرور, که ذخیره بیش از 20.3 تریلیون ردیف در پایگاه داده. حجم داده های فشرده است در مورد 2 سرب, بدون حسابداری برای تکراری و کپی. حجم داده های غیر فشرده (در فرمت تسو) حدود 17 پوند خواهد بود.

کلیک هاوس همچنین نقش کلیدی در فرایندهای زیر ایفا می کند:

  • ذخیره سازی داده ها برای پخش جلسه از یاندکس.متریکا
  • پردازش اطلاعات متوسط.
  • ساختمان گزارش های جهانی با تجزیه و تحلیل ترافیک.
  • در حال اجرا نمایش داده شد برای اشکال زدایی یاندکس.موتور متریکا.
  • تجزیه و تحلیل سیاهههای مربوط از رابط کاربر.

امروزه چند ده ClickHouse تاسیسات در دیگر Yandex خدمات و ادارات: جستجوی عمودی, e-commerce, تبلیغات, کسب و کار, تجزیه و تحلیل ترافیک تلفن همراه و توسعه و خدمات شخصی ،

داده های جمع شده و غیر جمع شده 

یک نظر گسترده است که برای محاسبه ارقام به طور موثر وجود دارد, شما باید داده ها جمع از این حجم داده ها را کاهش می دهد.

اما تجمع داده ها با محدودیت های زیادی همراه است:

  • شما باید یک لیست از پیش تعریف شده از گزارش های مورد نیاز داشته باشد.
  • کاربر می تواند گزارش های سفارشی را ندارد.
  • هنگامی که جمع بیش از تعداد زیادی از کلید های متمایز, حجم داده ها به سختی کاهش می یابد, بنابراین تجمع بی فایده است.
  • برای تعداد زیادی از گزارش, بیش از حد بسیاری از تغییرات تجمع وجود دارد (انفجار ترکیبی).
  • هنگامی که جمع کلید با کارتنیت بالا (مانند نشانیهای وب), حجم داده ها توسط بسیار کاهش می یابد (کمتر از دو قسم).
  • به همین دلیل حجم داده ها با تجمع ممکن است به جای کوچک شدن رشد می کنند.
  • کاربران تمام گزارش هایی را که برای ما تولید می کنیم مشاهده نمی کنند. بخش بزرگی از این محاسبات بی فایده است.
  • یکپارچگی منطقی داده ها ممکن است برای تجمع های مختلف نقض شده است.

اگر ما هر چیزی جمع نیست و کار با داده های غیر جمع, این ممکن است حجم محاسبات را کاهش می دهد.

با این حال, با تجمع, بخش قابل توجهی از کار گرفته شده است و نسبتا کلمی تکمیل. در مقابل محاسبات اینترنتی نیاز به محاسبه به همان سرعتی که ممکن است از کاربر در حال انتظار برای نتیجه.

یاندکسمتریکا دارای یک سیستم تخصصی برای جمع بندی داده ها به نام متراژ, که برای اکثر گزارش مورد استفاده قرار گرفت.
شروع در 2009, یاندکس.Metrica همچنین با استفاده از تخصصی OLAP پایگاه داده برای عدم جمع آوری داده ها به نام OLAPServer که قبلا با استفاده از گزارش ساز.
برای دادههای غیر تجمیع خوب کار میکرد اما محدودیتهای زیادی داشت که اجازه نداد برای تمامی گزارشها مورد نظر استفاده قرار گیرد. این شامل عدم پشتیبانی از انواع داده ها (فقط اعداد) و ناتوانی در به روز رسانی تدریجی داده ها در زمان واقعی (تنها می تواند با بازنویسی داده ها روزانه انجام می شود). اولسپرز یک دسی بل نیست, اما یک دسی بل تخصصی.

هدف اولیه برای ClickHouse بود برای حذف محدودیت های OLAPServer و حل مشکل از کار کردن با غیر جمع آوری داده ها برای همه, گزارش, اما در طول سال رشد کرده است به طور کلی هدف مدیریت پایگاه داده سیستم مناسب برای طیف گسترده ای از وظایف تحلیلی.

مقاله اصلی

Rating: 4.7 - 35 votes

Was this content helpful?
★★★★★