اخبار منصات الأفلام

تقديم انطباعات في Netflix | بواسطة Netflix Technology Blog | فبراير 2025

[ad_1]

الجزء 1: إنشاء مصدر الحقيقة للانطباعات

Netflix Technology Blog
Netflix Techblog

بواسطة: توليكا بهات

تخيل التمرير عبر Netflix ، حيث يتنافس كل ملصق فيلم أو لافتة ترويجية على اهتمامك. كل صورة تحومها ليست مجرد عنصر نائب مرئي ؛ إنها نقطة بيانات مهمة تغذي محرك التخصيص المتطور لدينا. في Netflix ، نسمي هذه الصور “انطباعات” ، ويلعبون دورًا محوريًا في تحويل تفاعلك من التصفح البسيط إلى تجربة مشاهدة شريرة غامرة ، وكلها مصممة خصيصًا لأذواقك الفريدة.

التقاط هذه اللحظات وتحويلها إلى رحلة شخصية ليس بالأمر البسيط. يتطلب الأمر نظامًا حديثًا يمكنه تتبع هذه الانطباعات ومعالجتها مع الحفاظ على تاريخ مفصل لتعرض كل ملف تعريف. هذا التكامل الدقيق للبيانات والتكنولوجيا يمكّننا من تقديم توصيات محتوى مخصصة.

في سلسلة المدونات متعددة الأجزاء هذه ، نأخذك وراء الكواليس لنظامنا الذي يعالج مليارات الانطباعات يوميًا. سنستكشف التحديات التي نواجهها ونكشف عن كيفية بناء حل مرن يحول هذه الانطباعات من جانب العميل إلى تجربة اكتشاف محتوى مخصصة لكل مشاهد Netflix.

انطباعات على الصفحة الرئيسية

التخصيص المعزز

لتكييف التوصيات بشكل أكثر فعالية ، من الأهمية بمكان تتبع المحتوى الذي واجهه المستخدم بالفعل. إن وجود تاريخ الانطباع يساعدنا على تحقيق ذلك من خلال السماح لنا بتحديد المحتوى الذي تم عرضه على الصفحة الرئيسية ولكن لا يشارك فيه ، مما يساعدنا على تقديم توصيات جديدة وجذابة.

ترد التردد

من خلال الحفاظ على تاريخ من الانطباعات ، يمكننا تنفيذ التردد لمنع الإفراط في التعرض لنفس المحتوى. هذا يضمن أن المستخدمين لا يظهرون مرارًا وتكرارًا خيارات متطابقة ، مع الحفاظ على تجربة المشاهدة نابضة بالحياة وتقليل خطر الإحباط أو فك الارتباط.

تسليط الضوء على إصدارات جديدة

بالنسبة للمحتوى الجديد ، يساعدنا تاريخ الانطباع في مراقبة تفاعلات المستخدم الأولية وضبط جهودنا للتسويق وفقًا لذلك. يمكننا تجربة مواضع المحتوى المختلفة أو الاستراتيجيات الترويجية لتعزيز الرؤية والمشاركة.

رؤى تحليلية

بالإضافة إلى ذلك ، يقدم تاريخ الانطباع معلومات ثاقبة لمعالجة عدد من استعلامات التحليلات المتعلقة بالنظام الأساسي. إن تحليل تاريخ الانطباع ، على سبيل المثال ، قد يساعد في تحديد مدى عمل صف محدد على الصفحة الرئيسية أو تقييم فعالية استراتيجية الترويج.

تبدأ الخطوة المحورية الأولى في إدارة الانطباعات بإنشاء مجموعة بيانات مصدر الحقيقة (SOT). تعد مجموعة البيانات الأساسية هذه ضرورية ، حيث إنها تدعم مختلف سير العمل في اتجاه مجرى النهر وتمكّن العديد من حالات الاستخدام.

جمع أحداث الانطباع الخام

بينما يستكشف أعضاء Netflix نظامنا الأساسي ، تثير تفاعلاتهم مع واجهة المستخدم مجموعة واسعة من الأحداث الأولية. يتم نقل هذه الأحداث على الفور من جانب العميل إلى خوادمنا ، مما يدخل قائمة انتظار مركزية لمعالجة الأحداث. تضمن قائمة الانتظار هذه أننا نلتقط باستمرار الأحداث الأولية من قاعدة المستخدمين العالمية لدينا.

بعد جمع الأحداث الخام في قائمة انتظار مركزية ، يقوم مستخرج الأحداث المخصص بمعالجة هذه البيانات لتحديد واستخراج جميع أحداث الانطباع. ثم يتم توجيه هذه الأحداث المستخرجة إلى موضوع Apache Kafka لتلبية احتياجات المعالجة الفورية وتخزينها في وقت واحد في جدول Apache Iceberg للاحتفاظ على المدى الطويل والتحليل التاريخي. إن نهج المسار المزدوج هذا يعزز قدرة كافكا على تدفق منخفض للتكنولوجيا وإدارة الجبل الجليدي الفعال لمجموعات البيانات على نطاق واسع غير قابل للتغيير ، مما يضمن استجابة في الوقت الفعلي وتوافر البيانات التاريخي الشامل.

جمع أحداث الانطباع الخام

تصفية وإثراء الانطباعات الخام

بمجرد قائمة أحداث الانطباع الخام ، تتولى مهمة Apache Flink عديمة الجنسية المسؤولية ، معالجة هذه البيانات بدقة. يقوم بتصفية أي إدخالات غير صالحة ويثري الإدخالات الصالحة مع بيانات تعريف إضافية ، مثل تفاصيل المعرض أو عنوان الفيلم ، وموقع الصفحة المحددة والصف حيث تم تقديم كل انطباع للمستخدمين. ثم يتم تنظيم هذا الإخراج المكرر باستخدام مخطط AVRO ، مما يحدد مصدرًا نهائيًا للحقيقة لبيانات انطباع Netflix. يمكن الوصول إلى البيانات المخصبة بسلاسة لكل من التطبيقات في الوقت الفعلي عبر Kafka والتحليل التاريخي من خلال التخزين في جدول Apache Iceberg. يضمن هذا التوفر المزدوج قدرات المعالجة الفورية إلى جانب الاحتفاظ بالبيانات على المدى الطويل الشامل.

مصدر الانطباع بنية الحقيقة

ضمان انطباعات عالية الجودة

الحفاظ على أعلى جودة من الانطباعات هو أولوية قصوى. نقوم بإنجاز هذا من خلال جمع مقاييس مفصلة على مستوى العمود والتي تقدم نظرة ثاقبة على الحالة وجودة كل انطباع. تتضمن هذه المقاييس كل شيء بدءًا من التحقق من المعرفات إلى التحقق من أن الأعمدة الأساسية يتم ملؤها بشكل صحيح. تتغذى البيانات التي تم جمعها في لوحة معلومات شاملة للجودة ويدعم نظام تنبيه قائم على عتبة المتدرج. هذه التنبيهات تخطرنا على الفور بأي قضايا محتملة ، مما يتيح لنا معالجة الانحدارات بسرعة. بالإضافة إلى ذلك ، أثناء إثراء البيانات ، نضمن أن جميع الأعمدة تتفق مع بعضها البعض ، مما يوفر تصحيحات في مكانها حيثما أمكن ذلك لتقديم بيانات دقيقة.

لوحة القيادة تظهر عدد عدم التطابق بين عمودين- entityid و videoid

نتعامل مع حجم مذهل يتراوح من 1 إلى 1.5 مليون حدث على مستوى العالم كل ثانية ، مع حجم كل حدث حوالي 1.2 كيلو بايت. لمعالجة هذا التدفق الهائل في الوقت الفعلي بكفاءة ، نستخدم Apache Flink لقدرات معالجة الدفق المنخفضة للتكوين ، والتي تدمج بشكل سلس معالجة الدُفعات والتيار لتسهيل الردم الفعال للبيانات التاريخية وضمان الاتساق عبر التحليلات التاريخية والتاريخية. يتضمن تكوين Flink لدينا 8 مديري مهام لكل منطقة ، كل منها مزود بـ 8 نوى وحدة المعالجة المركزية و 32 جيجابايت من الذاكرة ، يعملون بموازاة 48 ، مما يتيح لنا التعامل مع المقياس والسرعة اللازمة لتسليم الأداء السلس. تم تجهيز حوض Flink Job بموصل شبكة بيانات ، كما هو مفصل في منصة شبكة البيانات الخاصة بنا والذي يحتوي على مخرجين: Kafka و Iceberg. يتيح هذا الإعداد تدفقًا فعالًا للبيانات في الوقت الفعلي من خلال Kafka والحفاظ على البيانات التاريخية في Iceberg ، مما يوفر حلًا شاملاً ومرنًا للبيانات وتخزينه.

سجلات الانطباعات الخام في الثانية

نستخدم “نموذج الجزيرة” لنشر وظائف Flink الخاصة بنا ، حيث توجد جميع التبعيات لتطبيق معين داخل منطقة واحدة. يضمن هذا النهج توافرًا كبيرًا من خلال عزل المناطق ، لذلك إذا أصبح المرء متدهراً ، فإن البعض الآخر لا يتأثر ، مما يسمح بتحويل حركة المرور بين المناطق للحفاظ على استمرارية الخدمة. وبالتالي ، تتم معالجة جميع البيانات في منطقة واحدة بواسطة وظيفة Flink التي تم نشرها في تلك المنطقة.

معالجة تحدي الأحداث غير المتقدمة

يوفر السماح للأحداث الخام بالهبوط في قائمة انتظار المعالجة المركزية الخاصة بنا المرونة الكبيرة ، ولكنه يقدم أيضًا تحديات. بدون مخطط محدد ، قد يكون من الصعب تحديد ما إذا كانت البيانات المفقودة مقصودة أو بسبب خطأ في التسجيل. نحن نبحث في حلول لإدخال إدارة المخططات التي تحافظ على المرونة مع توفير الوضوح.

أتمتة ضبط الأداء مع أصحاب السيارات

يعد ضبط أداء وظائف Apache Flink لدينا عملية يدوية حاليًا. والخطوة التالية هي الاندماج مع تلقائيات التلقائي ، والتي يمكنها ضبط الموارد ديناميكيًا بناءً على متطلبات عبء العمل. لن يؤدي هذا التكامل إلى تحسين الأداء فحسب ، بل يضمن أيضًا استخدام موارد أكثر كفاءة.

تحسين تنبيهات جودة البيانات

في الوقت الحالي ، هناك الكثير من قواعد العمل التي تملي عندما يحتاج تنبيه جودة البيانات إلى إطلاق. هذا يؤدي إلى الكثير من الإيجابيات الخاطئة التي تتطلب الحكم اليدوي. في كثير من الأحيان ، من الصعب تتبع التغييرات التي تؤدي إلى الانحدار بسبب عدم كفاية معلومات نسب البيانات. نحن نستثمر في بناء منصة شاملة لجودة البيانات التي تحدد أكثر ذكاء الحالات الشاذة في دفق الانطباع لدينا ، وتتبع نسب البيانات وحوكمة البيانات ، وكذلك ، يولد تنبيهات لإخطار المنتجين بأي انحدارات. سيؤدي هذا النهج إلى تعزيز الكفاءة ، ويقلل من الرقابة اليدوية ، وضمان مستوى أعلى من سلامة البيانات.

يعد إنشاء مصدر موثوق للحقيقة للانطباعات مهمة معقدة ولكنها أساسية تعزز التخصيص وتجربة الاكتشاف. ترقبوا الجزء التالي من هذه السلسلة ، حيث سنتعمق في كيفية استخدام مجموعة بيانات SOT هذه لإنشاء خدمة microservice التي توفر تاريخ الانطباع. ندعوك لمشاركة أفكارك في التعليقات والاستمرار معنا في رحلة اكتشاف الانطباعات هذه.

نحن ممتنون حقًا لزملائنا المذهلين الذين كانت مساهماتهم ضرورية لنجاح الانطباعات: جوليان جافي ، برايان كيلر ، يون وانغ ، براندون بريمن ، كايل ألفورد ، رون براون ، شريا أرورا.

[ad_2]

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى