اخبار منصات الأفلام

التوصية لرضا الأعضاء على المدى الطويل في Netflix | بواسطة مدونة Netflix للتكنولوجيا | أغسطس 2024


مدونة نيتفليكس التقنية

بقلم جيانغوي بان، وغاري تانغ، وهنري وانغ، وجاستن باسيليكو

مهمتنا في Netflix هي ترفيه العالم. تلعب خوارزميات التخصيص لدينا دورًا حاسمًا في تنفيذ هذه المهمة لجميع الأعضاء من خلال التوصية بالعروض والأفلام والألعاب المناسبة في الوقت المناسب. ويمتد هذا الهدف إلى ما هو أبعد من المشاركة المباشرة؛ نحن نهدف إلى خلق تجربة تجلب متعة دائمة لأعضائنا. غالبًا ما تعمل أنظمة التوصية التقليدية على تحسين المقاييس قصيرة المدى مثل النقرات أو المشاركة، والتي قد لا تحقق الرضا الكامل على المدى الطويل. نحن نسعى جاهدين للتوصية بالمحتوى الذي لا يجذب الأعضاء في الوقت الحالي فحسب، بل يعزز أيضًا رضاهم على المدى الطويل، مما يزيد من القيمة التي يحصلون عليها من Netflix، وبالتالي من المرجح أن يستمروا في كونهم أعضاء.

إحدى الطرق البسيطة التي يمكننا من خلالها عرض التوصيات هي اعتبارها مشكلة قطاع الطرق السياقية. عندما يقوم أحد الأعضاء بالزيارة، يصبح ذلك سياقًا لنظامنا ويحدد إجراءً للتوصيات التي سيتم عرضها، ثم يقدم العضو أنواعًا مختلفة من التعليقات. يمكن أن تكون إشارات التعليقات هذه فورية (التخطي، أو التشغيل، أو الإعجاب لأعلى/لأسفل، أو إضافة عناصر إلى قائمة التشغيل الخاصة بهم) أو متأخرة (إكمال العرض أو تجديد الاشتراك). يمكننا تحديد وظائف المكافأة لتعكس جودة التوصيات من إشارات التعليقات هذه ومن ثم تدريب سياسة قطاع الطرق السياقية على البيانات التاريخية لتعظيم المكافأة المتوقعة.

هناك العديد من الطرق التي يمكن من خلالها تحسين نموذج التوصية. وقد تأتي من ميزات إدخال أكثر إفادة، ومزيدًا من البيانات، وبنيات مختلفة، ومعلمات أكثر، وما إلى ذلك. في هذا المنشور، نركز على جانب أقل مناقشة حول تحسين هدف التوصية من خلال تحديد وظيفة المكافأة التي تحاول أن تعكس رضا الأعضاء على المدى الطويل بشكل أفضل.

قد يبدو الاحتفاظ بالأعضاء بمثابة مكافأة واضحة لتحسين الرضا على المدى الطويل لأنه يجب على الأعضاء البقاء إذا كانوا راضين، ولكن له عدة عيوب:

  • صاخبة: يمكن أن يتأثر الاحتفاظ بالعديد من العوامل الخارجية، مثل الاتجاهات الموسمية أو الحملات التسويقية أو الظروف الشخصية التي لا علاقة لها بالخدمة.
  • حساسية منخفضة: يعد الاحتفاظ أمرًا حساسًا فقط للأعضاء الذين هم على وشك إلغاء اشتراكهم، ولا يستحوذ على النطاق الكامل لرضا الأعضاء.
  • من الصعب أن تنسب: قد يقوم الأعضاء بالإلغاء فقط بعد سلسلة من التوصيات السيئة.
  • بطيء في القياس: نحصل على إشارة واحدة فقط لكل حساب شهريًا.

وبسبب هذه التحديات، يعد تحسين الاحتفاظ بالموظفين وحده أمرًا غير عملي.

وبدلاً من ذلك، يمكننا تدريب سياسة قطاع الطرق لدينا لتحسين وظيفة مكافأة الوكيل التي تتوافق بشكل كبير مع رضا الأعضاء على المدى الطويل مع مراعاة التوصيات الفردية. مكافأة الوكيل ص (مستخدم، عنصر) هي وظيفة تفاعل المستخدم مع العنصر الموصى به. على سبيل المثال، إذا أوصينا بـ “One Piece” وقام أحد الأعضاء باللعب ثم أكملها بعد ذلك وأبدى إعجابه بها، فقد يتم تعريف مكافأة الوكيل البسيطة على أنها r (مستخدم، عنصر) = f (تشغيل، كامل، إبهام).

نسبة النقر إلى الظهور (CTR)

يمكن النظر إلى نسبة النقر إلى الظهور (CTR)، أو في حالتنا، على أنها مكافأة وكيل بسيطة ص (مستخدم، عنصر) = 1 إذا نقر المستخدم على توصية و0 بخلاف ذلك. تعد نسبة النقر إلى الظهور بمثابة إشارة تعليقات شائعة تعكس بشكل عام توقعات تفضيلات المستخدم. إنه خط أساس بسيط ولكنه قوي للعديد من تطبيقات التوصية. في بعض الحالات، مثل تخصيص الإعلانات حيث تكون النقرة هي الإجراء المستهدف، قد تكون نسبة النقر إلى الظهور مكافأة معقولة لنماذج الإنتاج. ومع ذلك، في معظم الحالات، يمكن أن يؤدي الإفراط في تحسين نسبة النقر إلى الظهور إلى الترويج لعناصر جذب النقرات، مما قد يضر بالرضا على المدى الطويل.

ما وراء نسبة النقر إلى الظهور

لمواءمة وظيفة المكافأة بالوكالة بشكل أوثق مع الرضا على المدى الطويل، نحتاج إلى النظر إلى ما هو أبعد من التفاعلات البسيطة، والنظر في جميع أنواع إجراءات المستخدم، وفهم آثارها الحقيقية على رضا المستخدم.

نعطي بعض الأمثلة في سياق Netflix:

  • الانتهاء من الموسم بسرعة ✅: يعد إكمال موسم من برنامج تلفزيوني موصى به في يوم واحد علامة قوية على الاستمتاع والرضا على المدى الطويل.
  • إبهام لأسفل بعد الانتهاء ❌: يشير إكمال برنامج تلفزيوني في عدة أسابيع متبوعًا بالإبهام إلى انخفاض الرضا على الرغم من قضاء وقت طويل.
  • تشغيل فيلم لمدة 10 دقائق فقط ❓: في هذه الحالة يكون رضا المستخدم غامضًا. قد تشير المشاركة القصيرة إلى أن المستخدم قرر التخلي عن الفيلم، أو قد تعني ببساطة أن المستخدم تمت مقاطعته ويخطط لإنهاء الفيلم لاحقًا، ربما في اليوم التالي.
  • اكتشاف أنواع جديدة ✅ ✅: مشاهدة المزيد من البرامج الكورية أو برامج الألعاب بعد “Squid Game” تشير إلى أن المستخدم يكتشف شيئًا جديدًا. من المحتمل أن يكون هذا الاكتشاف أكثر قيمة لأنه أدى إلى مجموعة متنوعة من الارتباطات في مجال جديد للعضو.

هندسة المكافآت هي عملية متكررة لتحسين وظيفة المكافأة الوكيلة لتتوافق مع رضا الأعضاء على المدى الطويل. وهو يشبه هندسة الميزات، إلا أنه يمكن استخلاصه من بيانات غير متوفرة في وقت العرض. تتضمن هندسة المكافآت أربع مراحل: تكوين الفرضيات، وتحديد مكافأة بديلة جديدة، والتدريب على سياسة قطاع الطرق الجديدة، واختبار A/B. وفيما يلي مثال بسيط.

غالبًا ما يتم تأخير أو فقدان تعليقات المستخدم المستخدمة في وظيفة مكافأة الوكيل. على سبيل المثال، قد يقرر أحد الأعضاء تشغيل عرض موصى به لبضع دقائق فقط في اليوم الأول ويستغرق عدة أسابيع لإكمال العرض بالكامل. وبالتالي، تأخرت تعليقات الإكمال هذه. بالإضافة إلى ذلك، قد لا تحدث بعض تعليقات المستخدمين أبدًا؛ على الرغم من أننا قد نرغب في خلاف ذلك، إلا أنه لا يقدم جميع الأعضاء إعجابًا أو عدم إعجابًا بعد الانتهاء من العرض، مما يجعلنا غير متأكدين من مستوى استمتاعهم.

يمكننا أن نحاول وننتظر لإعطاء نافذة أطول لمراقبة التعليقات، ولكن ما هي المدة التي يجب أن ننتظر فيها ردود الفعل المتأخرة قبل حساب مكافآت الوكيل؟ إذا انتظرنا طويلاً (على سبيل المثال، أسابيع)، فإننا نضيع فرصة تحديث سياسة قطاع الطرق بأحدث البيانات. في بيئة ديناميكية للغاية مثل Netflix، يمكن لسياسة اللصوص التي لا معنى لها أن تؤدي إلى تدهور تجربة المستخدم وتكون سيئة بشكل خاص في التوصية بالعناصر الأحدث.

الحل: توقع التعليقات المفقودة

نحن نهدف إلى تحديث سياسة قطاع الطرق بعد وقت قصير من تقديم التوصية مع تحديد وظيفة مكافأة الوكيل أيضًا بناءً على جميع تعليقات المستخدمين، بما في ذلك التعليقات المتأخرة. وبما أنه لم تتم ملاحظة ردود الفعل المتأخرة في وقت التدريب على السياسات، فيمكننا التنبؤ بها. يحدث هذا التنبؤ لكل مثال تدريبي به تعليقات متأخرة، وذلك باستخدام التعليقات التي تمت ملاحظتها بالفعل والمعلومات الأخرى ذات الصلة حتى وقت التدريب كميزات إدخال. وبالتالي، فإن التنبؤ يتحسن أيضًا مع تقدم الوقت.

يتم بعد ذلك حساب المكافأة البديلة لكل مثال تدريبي باستخدام الملاحظات الملحوظة والمتوقعة. تُستخدم أمثلة التدريب هذه لتحديث سياسة قطاع الطرق.

لكن ألا نزال نعتمد فقط على التعليقات المرصودة في وظيفة المكافأة بالوكالة؟ نعم، لأنه يتم توقع ردود الفعل المتأخرة بناءً على الملاحظات الملحوظة. ومع ذلك، فمن الأسهل التفكير بشأن المكافآت باستخدام جميع الملاحظات مباشرة. على سبيل المثال، قد يكون نموذج التنبؤ المؤجل عبارة عن شبكة عصبية معقدة تأخذ في الاعتبار جميع الملاحظات المرصودة (على سبيل المثال، أنماط اللعب قصيرة المدى). من الأسهل تحديد مكافأة الوكيل كوظيفة بسيطة للتعليقات الإيجابية بدلاً من وظيفة معقدة لأنماط التفاعل قصيرة المدى. ويمكن استخدامه أيضًا لضبط التحيزات المحتملة في كيفية تقديم التعليقات.

يتم تحديث الرسم التخطيطي لهندسة المكافآت بخطوة اختيارية للتنبؤ بالملاحظات المتأخرة.

نوعان من نماذج ML

تجدر الإشارة إلى أن هذا النهج يستخدم نوعين من نماذج تعلم الآلة:

  • نماذج التنبؤ بالتغذية الراجعة المتأخرة: هذه النماذج تتنبأ p(التعليقات النهائية | التعليقات المرصودة). تُستخدم التنبؤات لتحديد وحساب مكافآت الوكيل لأمثلة التدريب على سياسة قطاع الطرق. ونتيجة لذلك، يتم استخدام هذه النماذج دون الاتصال بالإنترنت أثناء التدريب على سياسة قطاع الطرق.
  • نماذج سياسة قطاع الطرق: يتم استخدام هذه النماذج في سياسة قطاع الطرق π(العنصر | المستخدم؛ ص) لتوليد التوصيات عبر الإنترنت وفي الوقت الحقيقي.

غالبًا ما تؤدي ميزات الإدخال المحسنة أو بنيات الشبكة العصبية إلى تحسين مقاييس النماذج غير المتصلة بالإنترنت (على سبيل المثال، AUC لنماذج التصنيف). ومع ذلك، عندما تخضع هذه النماذج المحسنة لاختبار A/B، غالبًا ما نلاحظ مقاييس ثابتة أو حتى سلبية عبر الإنترنت، والتي يمكن أن تحدد مدى رضا الأعضاء على المدى الطويل.

عادةً ما يحدث هذا التباين في المقاييس عبر الإنترنت دون الاتصال بالإنترنت عندما لا تتوافق مكافأة الوكيل المستخدمة في سياسة التوصية بشكل كامل مع رضا الأعضاء على المدى الطويل. في مثل هذه الحالات، قد يحقق النموذج مكافآت وكيلة أعلى (مقاييس غير متصلة بالإنترنت) ولكنه يؤدي إلى رضا الأعضاء بشكل أسوأ على المدى الطويل (مقاييس عبر الإنترنت).

ومع ذلك، فإن تحسين النموذج حقيقي. أحد الأساليب لحل هذه المشكلة هو تحسين تعريف مكافأة الوكيل لتتماشى بشكل أفضل مع النموذج المحسن. عندما يؤدي هذا الضبط إلى مقاييس إيجابية عبر الإنترنت، يمكن إنتاج تحسين النموذج بشكل فعال. يرى [1] لمزيد من المناقشات حول هذا التحدي.

في هذا المنشور، قدمنا ​​نظرة عامة على جهودنا في هندسة المكافآت لمواءمة توصيات Netflix مع رضا الأعضاء على المدى الطويل. على الرغم من أن معدل الاحتفاظ بالجمهور يظل هدفنا الرئيسي، إلا أنه ليس من السهل تحسينه بشكل مباشر. ولذلك، تركز جهودنا على تحديد مكافأة بديلة تتماشى مع الرضا على المدى الطويل وتراعي التوصيات الفردية. أخيرًا، ناقشنا التحدي الفريد المتمثل في تأخر تعليقات المستخدمين في Netflix واقترحنا أسلوبًا أثبت فعاليته بالنسبة لنا. الرجوع إلى [2] للحصول على نظرة عامة سابقة حول جهود ابتكار المكافآت في Netflix.

وبينما نواصل تحسين توصياتنا، تظل هناك عدة أسئلة مفتوحة:

  • هل يمكننا تعلم وظيفة المكافأة الجيدة تلقائيًا عن طريق ربط السلوك بالاحتفاظ؟
  • إلى متى يجب أن ننتظر ردود الفعل المتأخرة قبل استخدام قيمتها المتوقعة في التدريب على السياسات؟
  • كيف يمكننا الاستفادة من التعلم المعزز لزيادة مواءمة السياسة مع الرضا على المدى الطويل؟

[1] التعلم العميق لأنظمة التوصية: دراسة حالة Netflix. مجلة AI 2021. هارالد ستيك، ليناس بالتروناس، احتشام إلهي، داوين ليانغ، إيف ريموند، جاستن باسيليكو.

[2] مكافأة الابتكار لتحقيق رضا الأعضاء على المدى الطويل. RecSys 2023. غاري تانغ، جيانغوي بان، هنري وانغ، جاستن باسيليكو.


اكتشاف المزيد من هيدب فيديو

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من هيدب فيديو

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading