اخبار منصات الأفلام

الجزء الأول: دراسة استقصائية عن العمل الهندسي التحليلي في Netflix | بواسطة مدونة Netflix للتكنولوجيا | ديسمبر 2024


مدونة نيتفليكس التقنية

هذه المقالة هي الأولى في سلسلة متعددة الأجزاء تشارك مجموعة واسعة من أعمال هندسة التحليلات في Netflix، والتي تم تقديمها مؤخرًا كجزء من مؤتمرنا السنوي الداخلي لهندسة التحليلات. نبدأ ببعض المواضيع التي تركز على كيفية تمكين Netflix من إنتاج وتقديم رؤى تحليلية عالية الجودة وقابلة للتنفيذ بكفاءة عبر الشركة. ستعرض المنشورات اللاحقة أمثلة تفصيلية لتطبيقات مجال الهندسة التحليلية المثيرة وجوانب الحرفة التقنية.

في Netflix، نسعى إلى ترفيه العالم من خلال ضمان عثور أعضائنا على العروض والأفلام التي ستثير اهتمامهم. تعمل التحليلات في Netflix على تشغيل كل شيء بدءًا من فهم المحتوى الذي سيثير اهتمام الأعضاء ويجذبهم مرة أخرى للحصول على المزيد، ووصولاً إلى كيفية إنتاج قائمة محتوى وتوزيعها لتحقيق أقصى قدر من المتعة للأعضاء. يقدم مهندسو التحليلات هذه الأفكار من خلال إقامة شراكات عميقة في مجال الأعمال والمنتجات؛ ترجمة تحديات الأعمال إلى حلول تطلق العنان للقرارات الحاسمة؛ وتصميم وبناء وصيانة أنظمة تحليلية شاملة.

في كل عام، نجمع مجتمع هندسة التحليلات معًا في قمة التحليلات – وهو مؤتمر داخلي مدته 3 أيام لمشاركة النتائج التحليلية عبر Netflix، ومناقشة الممارسات التحليلية، وبناء العلاقات داخل المجتمع. لقد قمنا بتغطية مجموعة واسعة من المواضيع المثيرة وأردنا تسليط الضوء على القليل منها لإعطائك لمحة عما نعمل عليه عبر هندسة التحليلات في Netflix!

يان شانغ، آنه لي

في Netflix، كما هو الحال في العديد من المؤسسات، غالبًا ما يكون إنشاء المقاييس واستخدامها أكثر تعقيدًا مما ينبغي. غالبًا ما تكون تعريفات المقاييس متناثرة عبر قواعد البيانات ومواقع التوثيق ومستودعات الأكواد المختلفة، مما يجعل من الصعب على المحللين وعلماء البيانات العثور على معلومات موثوقة بسرعة. ويؤدي هذا التجزئة إلى تناقضات وإهدار وقت ثمين حيث ينتهي الأمر بالفرق إلى إعادة اختراع المقاييس أو البحث عن توضيحات بشأن التعريفات التي ينبغي أن تكون موحدة ويمكن الوصول إليها بسهولة.

أدخل DataJunction (DJ). يعمل DJ كمتجر مركزي حيث يمكن للتعريفات المترية أن تعيش وتتطور. بمجرد قيام مالك المقياس بتسجيل مقياس في DJ، يمكن لمستهلكي القياس في جميع أنحاء المؤسسة تطبيق نفس تعريف المقياس على مجموعة من السجلات التي تمت تصفيتها وتجميعها على أي حبيبات أبعاد.

على سبيل المثال، تخيل أن أحد المحللين يريد إنشاء مقياس “إجمالي ساعات البث”. لإضافة هذا المقياس إلى DJ، يجب عليهم تقديم معلومتين:

  • جدول الحقيقة الذي يأتي منه المقياس:

يختار
معرف_الحساب، رمز_البلد،_ساعات_البث
من Stream_fact_table

`SUM(ساعات_البث)`

بعد ذلك، يمكن لعملاء القياس في جميع أنحاء المؤسسة الاتصال بـ DJ لطلب SQL أو البيانات الناتجة. على سبيل المثال،

  • Total_streaming_hours لكل حساب:

dj.sql(المقاييس=[“total_streaming_hours”]الأبعاد=[“account_id”]))

  • إجمالي_ساعات_البث لكل بلد:

dj.sql(المقاييس=[“total_streaming_hours”]الأبعاد=[“country_iso_code”]))

  • Total_streaming_hours لكل حساب في الولايات المتحدة:

dj.sql(المقاييس=[“total_streaming_hours”]الأبعاد=[“country_iso_code”]، المرشحات=[“country_iso_code = ‘US’”]))

المفتاح هنا هو أن DJ يمكنه إجراء ربط الأبعاد نيابة عن المستخدمين. إذا لم يكن رمز_البلد موجودًا بالفعل في جدول الحقائق، فسيحتاج مالك المقياس فقط إلى إخبار DJ بأن account_id هو المفتاح الخارجي لـ “جدول_أبعاد_المستخدمين” (نسمي هذه العملية “ربط البعد”). يمكن لـ DJ بعد ذلك تنفيذ عمليات الانضمام لإحضار أي أبعاد مطلوبة من “users_dimension_table”.

تستفيد منصة Netflix التجريبية من هذه الميزة بشكل كبير اليوم من خلال التعامل مع تخصيص الخلية على أنها مجرد بُعد آخر تطلب من DJ إحضاره. على سبيل المثال، لمقارنة متوسط ​​ساعات البث في الخلية A مقابل الخلية B، تعتمد منصة التجريب على DJ لإحضارها “cell_signment” كبُعد للمستخدم (لا يختلف عن Country_iso_code). وبالتالي، يمكن تحديد المقياس مرة واحدة في DJ وإتاحته عبر لوحات المعلومات التحليلية والتحليل التجريبي.

يتمتع DJ بنسب قوية – فهناك العديد من الطبقات الدلالية السابقة في الصناعة (على سبيل المثال Minerva في Airbnb؛ وdbt Transform، وLooker، وAtScale كحلول مدفوعة الأجر). يبرز DJ كحل مفتوح المصدر تم تطويره واختباره بشكل نشط في Netflix. نود أن نرى تخفيف DJ لك إنشاء متري ونقاط الألم الاستهلاك!

أبورفا كانسارا

في Netflix، نعتمد على البيانات والتحليلات لاتخاذ القرارات المهمة المتعلقة بالأعمال. مع مرور الوقت، أدى ذلك إلى ظهور أعداد كبيرة من منتجات لوحة القيادة. في حين أن مثل هذه المنتجات التحليلية مفيدة للغاية، فقد لاحظنا بعض الاتجاهات:

  1. يحتوي جزء كبير من هذه المنتجات على أقل من 5 MAU (المستخدمين النشطين شهريًا)
  2. نحن نقضي قدرًا هائلاً من الوقت في بناء مقاييس وأبعاد الأعمال والحفاظ عليها
  3. نحن نرى تناقضات في كيفية حساب مقياس معين وعرضه والحفاظ عليه عبر مؤسسة البيانات والرؤى.
  4. ومن الصعب توسيع نطاق هذه الحلول المخصصة لتلبية احتياجات الأعمال المتغيرة والمعقدة بشكل متزايد.

تمكين التحليلات عبارة عن مجموعة من المبادرات عبر البيانات والرؤى التي تركز جميعها على تمكين ممارسي التحليل في Netflix من إنتاج رؤى عالية الجودة وقابلة للتنفيذ وتقديمها بكفاءة.

وعلى وجه التحديد، تركز هذه المبادرات على تمكين التحليلات بدلاً من التركيز على الأنشطة التي تنتج التحليلات (على سبيل المثال، لوحة المعلومات، والتحليل، والبحث، وما إلى ذلك).

كجزء من تمكين التحليلات على نطاق واسع عبر جميع مجالات الأعمال، استثمرنا في برنامج الدردشة الآلي لتقديم رؤى حقيقية لمستخدمينا النهائيين باستخدام قوة LLM. أحد الأسباب التي تجعل ماجستير إدارة الأعمال (LLM) مناسبًا تمامًا لمثل هذه المشكلات هو أنها تربط تعدد استخدامات اللغة الطبيعية بقوة الاستعلام عن البيانات لتمكين مستخدمي الأعمال لدينا من الاستعلام عن البيانات التي قد تتطلب معرفة متطورة بنماذج البيانات الأساسية.

إلى جانب تزويد المستخدم النهائي بإجابة فورية في تصور البيانات المفضل، يتعلم LORE على الفور من تعليقات المستخدم. يتيح لنا ذلك تعليم LLM فهمًا غنيًا بالسياق لمقاييس الأعمال الداخلية التي كانت مقفلة مسبقًا في التعليمات البرمجية المخصصة لكل منتج من منتجات لوحة المعلومات.

بعض التحديات التي نواجهها:

  • اكتساب ثقة المستخدم: لكسب ثقة المستخدمين النهائيين، ركزنا على إمكانية شرح نموذجنا. على سبيل المثال، يوفر LORE منطقًا يمكن قراءته بواسطة الإنسان حول كيفية وصوله إلى الإجابة التي يمكن للمستخدمين التحقق منها. يوفر LORE أيضًا درجة ثقة لمستخدمينا النهائيين استنادًا إلى أسسه في مجال المجال.
  • التدريب: لقد أنشأنا تعليقات يسهل تقديمها باستخدام 👍 و👎 مع حلقة ضبط دقيقة متكاملة تمامًا للسماح للمستخدمين النهائيين بتعليم المجالات والأسئلة الجديدة حولها بفعالية. وقد سمح لنا ذلك بتمهيد LORE عبر العديد من المجالات داخل Netflix.

يمكن لإضفاء الطابع الديمقراطي على التحليلات أن يطلق العنان للإمكانات الهائلة للبيانات للجميع داخل الشركة. من خلال تمكين Analytics وLORE، قمنا بتمكين مستخدمي الأعمال لدينا من إجراء محادثة حقيقية مع البيانات.

جي هان، بالافي فادنيس

في Netflix، نستخدم Amazon Web Services (AWS) لتلبية احتياجات البنية التحتية السحابية لدينا، مثل الحوسبة والتخزين والشبكات لبناء نظام البث الذي نحبه وتشغيله. يمكّن نظامنا البيئي الفرق الهندسية من تشغيل التطبيقات والخدمات على نطاق واسع، باستخدام مزيج من الحلول مفتوحة المصدر والملكية. من أجل فهم مدى كفاءة عملنا في هذا المشهد التكنولوجي المتنوع، تتعاون مؤسسة البيانات والرؤى بشكل وثيق مع فرقنا الهندسية لمشاركة مقاييس الكفاءة الرئيسية، وتمكين أصحاب المصلحة الداخليين من اتخاذ قرارات عمل مستنيرة.

هذا هو المكان الذي يأتي فيه فريقنا، Platform DSE (هندسة علوم البيانات)، لتمكين شركائنا الهندسيين من فهم الموارد التي يستخدمونها، ومدى فعالية استخدامهم لهذه الموارد، والتكلفة المرتبطة باستخدام مواردهم. من خلال إنشاء مجموعات بيانات منسقة وإضفاء الطابع الديمقراطي على الوصول عبر تطبيق رؤى مخصصة ونقاط تكامل متنوعة، يمكن للمستخدمين النهائيين الحصول على رؤى دقيقة ضرورية لاتخاذ قرارات تعتمد على البيانات وفعالة من حيث التكلفة للأعمال.

لتلبية الاحتياجات التحليلية العديدة بطريقة قابلة للتطوير، قمنا بتطوير حل مكون من مكونين:

  1. بيانات النظام الأساسي التأسيسي (FPD): يوفر هذا المكون طبقة بيانات مركزية لجميع بيانات النظام الأساسي، وتتميز بنموذج بيانات متسق ومنهجية معالجة بيانات موحدة. نحن نعمل مع موفري بيانات النظام الأساسي المختلفين للحصول على جرد, ملكية، و الاستخدام البيانات الخاصة بالمنصات المعنية التي يمتلكونها.
  2. تحليلات كفاءة السحابة (CEA): مبنية على FPD، يوفر هذا المكون طبقة بيانات تحليلية توفر مقاييس كفاءة السلاسل الزمنية عبر حالات استخدام الأعمال المختلفة. بمجرد أن تصبح البيانات الأساسية جاهزة، تستهلك CEA بيانات المخزون والملكية والاستخدام وتطبق ما يناسبها منطق الأعمال لإنتاج يكلف و إسناد الملكية في حبيبات مختلفة.

باعتبارنا مصدر الحقيقة لمقاييس الكفاءة، يتعين على مستأجري فريقنا تقديم بيانات دقيقة وموثوقة ويمكن الوصول إليها، ووثائق شاملة للتغلب على تعقيد مجال الكفاءة، واتفاقيات مستوى الخدمة (SLAs) المحددة جيدًا لتحديد التوقعات مع المستهلكين النهائيين أثناء التأخير أو الانقطاع أو التغيير.

وبالنظر إلى المستقبل، فإننا نهدف إلى مواصلة تأهيل المنصات، والسعي للحصول على تغطية كاملة تقريبًا لمعلومات التكلفة. نحن نستكشف أيضًا حالات استخدام جديدة، مثل التقارير المخصصة للمنصات، والتحليلات التنبؤية لتحسين الاستخدام واكتشاف الحالات الشاذة في التكلفة، وأداة تحليل السبب الجذري باستخدام LLMs.

في النهاية، هدفنا هو تمكين مؤسستنا الهندسية من اتخاذ قرارات واعية بالكفاءة عند إنشاء وصيانة عدد لا يحصى من الخدمات التي تتيح لنا الاستمتاع بـ Netflix كخدمة بث مباشر. لمزيد من التفاصيل حول نهجنا ومبادئنا في النمذجة، راجع هذا المنشور!


اكتشاف المزيد من هيدب فيديو

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من هيدب فيديو

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading