اخبار منصات الأفلام

معلق فيديو: إطار عمل لبناء مصنفات الفيديو بكفاءة باستخدام نماذج لغة الرؤية والتعلم النشط | بواسطة مدونة Netflix للتكنولوجيا | يونيو 2024


مدونة نيتفليكس التقنية

أمير زياي، أنيش فارتاكافي، كيلي غريغز، يوجين لوك، إيفون جوكس، أليكس ألونسو، في ينجار، آنا بوليدو

مشكلة

عالية الجودة ومتسقة التعليقات التوضيحية تعتبر أساسية للتطوير الناجح لنماذج قوية للتعلم الآلي. التقنيات التقليدية لتدريب مصنفات التعلم الآلي هي موارد كثيفة. وهي تتضمن دورة يقوم فيها خبراء المجال بتعليق مجموعة بيانات، والتي يتم نقلها بعد ذلك إلى علماء البيانات لتدريب النماذج ومراجعة النتائج وإجراء التغييرات. تميل عملية وضع العلامات هذه إلى أن تكون مستهلكة للوقت وغير فعالة، وتتوقف أحيانًا بعد بضع دورات من التعليقات التوضيحية.

تداعيات

وبالتالي، يتم استثمار جهد أقل في شرح مجموعات البيانات عالية الجودة مقارنة بالتكرار على النماذج المعقدة والأساليب الخوارزمية لتحسين الأداء وإصلاح الحالات المتطورة. ونتيجة لذلك، تنمو أنظمة تعلم الآلة بسرعة من حيث التعقيد.

علاوة على ذلك، غالبًا ما تؤدي القيود المفروضة على الوقت والموارد إلى الاستفادة من التعليقات التوضيحية التابعة لجهات خارجية بدلاً من الاستفادة منها خبراء المجال. يقوم هؤلاء المفسرون بمهمة وضع العلامات بدون عمق فهم للنشر أو الاستخدام المقصود للنموذج، وغالبًا ما يتم وضع علامات متسقة على الحدود أو أمثلة صعبة، وخاصة في المهام الأكثر ذاتية، يشكل تحديا.

وهذا يتطلب جولات مراجعة متعددة مع خبراء المجال، مما يؤدي إلى تكاليف وتأخيرات غير متوقعة. يمكن أن تؤدي هذه الدورة الطويلة أيضًا إلى نموذج المغزى، حيث يستغرق إصلاح الحالات المتطورة ونشر نماذج جديدة وقتًا أطول، مما قد يؤدي إلى الإضرار بالفائدة وثقة أصحاب المصلحة.

حل

نقترح المزيد من المشاركة المباشرة لخبراء المجال، وذلك باستخدام الإنسان في الحلقة النظام، يمكن أن يحل العديد من هذه التحديات العملية. نقدم إطارًا جديدًا، معلق فيديو (VA) الذي يستفيد منه تعليم فعال تقنيات و صفر طلقة قدرات كبيرة لغة الرؤية نماذج لتوجيه المستخدمين لتركيز جهودهم على الأمثلة الأكثر صعوبة بشكل تدريجي، مما يعزز كفاءة عينة النموذج ويبقي التكاليف منخفضة.

يقوم VA بدمج بناء النموذج بسلاسة في عملية التعليق التوضيحي للبيانات، مما يسهل التحقق من صحة المستخدم للنموذج قبل النشر، وبالتالي يساعد في البناء يثق وتعزيز الشعور ملكية. يدعم VA أيضًا أ مستمر عملية التعليق التوضيحي، مما يسمح للمستخدمين بنشر النماذج بسرعة، ومراقبة جودتها في الإنتاج، وإصلاح أي حالات حافة بسرعة من خلال التعليق على بعض الأمثلة الإضافية ونشر إصدار نموذج جديد.

تعمل بنية الخدمة الذاتية هذه على تمكين المستخدمين من إجراء تحسينات دون المشاركة النشطة لعلماء البيانات أو المعلقين الخارجيين، مما يسمح بالتكرار السريع.

نحن نصمم VA للمساعدة في فهم الفيديو الدقيق الذي يتطلب تحديد العناصر المرئية والمفاهيم والأحداث داخل مقاطع الفيديو. يعد فهم الفيديو أمرًا أساسيًا للعديد من التطبيقات مثل البحث والاكتشاف والتخصيص وإنشاء الأصول الترويجية. يتيح إطار عملنا للمستخدمين تدريب نماذج التعلم الآلي بكفاءة لفهم الفيديو من خلال تطوير مجموعة قابلة للتوسيع من مصنفات الفيديو الثنائية، والتي تعمل على تعزيز التسجيل القابل للتطوير واسترجاع كتالوج واسع من المحتوى.

تصنيف الفيديو

تصنيف الفيديو هو مهمة تعيين تسمية لمقطع فيديو ذي طول عشوائي، وغالبًا ما يكون مصحوبًا بدرجة احتمالية أو تنبؤ، كما هو موضح في الشكل 1.

الشكل 1- عرض وظيفي لمصنف الفيديو الثنائي. يتم تمرير مقطع مدته بضع ثوانٍ من “Operation Varsity Blues: The College Admissions Scandal” إلى مصنف ثنائي لاكتشاف علامة “اللقطات التأسيسية”. يُخرج المُصنف درجة عالية جدًا (النتيجة تتراوح بين 0 و1)، مما يشير إلى أن مقطع الفيديو من المحتمل جدًا أن يكون لقطة تأسيسية. في صناعة الأفلام، اللقطة التأسيسية هي لقطة واسعة (أي مقطع فيديو بين قطعتين متتاليتين) لمبنى أو منظر طبيعي يهدف إلى تحديد وقت المشهد وموقعه.

فهم الفيديو عبر مجموعة قابلة للتوسيع من مصنفات الفيديو

يتيح التصنيف الثنائي الاستقلالية والمرونة، مما يسمح لنا بإضافة أو تحسين نموذج واحد بشكل مستقل عن النماذج الأخرى. كما أن لديها فائدة إضافية تتمثل في كونها أسهل في الفهم والبناء لمستخدمينا. يتيح لنا الجمع بين تنبؤات النماذج المتعددة فهمًا أعمق لمحتوى الفيديو بمستويات مختلفة من التفاصيل، كما هو موضح في الشكل 2.

الشكل 2- ثلاثة مقاطع فيديو ودرجات المصنف الثنائي المقابلة لثلاثة تسميات فهم فيديو. لاحظ أن هذه التسميات لا يستبعد بعضها بعضا. مقاطع الفيديو مأخوذة من Operation Varsity Blues: The College Admissions Scandal، و6 Underground، وLeave The World Behind، على التوالي.

في هذا القسم، نصف عملية VA المكونة من ثلاث خطوات لبناء مصنفات الفيديو.

الخطوة 1 – البحث

يبدأ المستخدمون بالعثور على مجموعة أولية من الأمثلة ضمن مجموعة كبيرة ومتنوعة لبدء عملية التعليق التوضيحي. نحن نستفيد من البحث من نص إلى فيديو لتمكين ذلك، مدعومًا ببرامج ترميز الفيديو والنص من نموذج لغة الرؤية لاستخراج التضمينات. على سبيل المثال، يمكن للمعلق الذي يعمل على نموذج اللقطات التأسيسية أن يبدأ العملية من خلال البحث عن “لقطات واسعة للمباني”، كما هو موضح في الشكل 3.

الشكل 3- الخطوة 1 – البحث عن تحويل النص إلى فيديو لبدء عملية التعليق التوضيحي.

الخطوة الثانية – التعلم النشط

تتضمن المرحلة التالية حلقة التعلم النشط الكلاسيكية. يقوم VA بعد ذلك ببناء مصنف ثنائي خفيف الوزن على تضمينات الفيديو، والذي يتم استخدامه لاحقًا لتسجيل جميع المقاطع في المجموعة، ويقدم بعض الأمثلة داخل الخلاصات لمزيد من التعليقات التوضيحية والتحسين، كما هو موضح في الشكل 4.

الشكل 4- الخطوة 2 – حلقة التعلم النشط. ينقر المعلق على البناء، مما يؤدي إلى بدء تدريب المصنف وتسجيل جميع المقاطع في مجموعة الفيديو. يتم تنظيم المقاطع المسجلة في أربع خلاصات.

تعرض الخلاصات الإيجابية والسلبية ذات أعلى الدرجات أمثلة ذات أعلى وأدنى الدرجات على التوالي. أبلغ مستخدمونا أن هذا يقدم مؤشرًا قيمًا حول ما إذا كان المصنف قد التقط المفاهيم الصحيحة في المراحل الأولى من التدريب واكتشف حالات التحيز في بيانات التدريب التي تمكنوا من إصلاحها لاحقًا. نقوم أيضًا بتضمين موجز للأمثلة “الحدودية” التي لا يثق النموذج بها. تساعد هذه الخلاصة في اكتشاف حالات الحافة المثيرة للاهتمام وتُلهم الحاجة إلى تصنيف مفاهيم إضافية. وأخيرًا، تتكون التغذية العشوائية من مقاطع تم اختيارها عشوائيًا وتساعد على شرح الأمثلة المتنوعة وهو أمر مهم للتعميم.

يمكن للمعلق أن يقوم بتسمية المقاطع الإضافية في أي من الخلاصات وإنشاء مصنف جديد وتكراره عدة مرات حسب الرغبة.

الخطوة 3 – المراجعة

تقدم الخطوة الأخيرة للمستخدم بكل بساطة جميع المقاطع المشروحة. إنها فرصة جيدة لاكتشاف أخطاء التعليقات التوضيحية وتحديد الأفكار والمفاهيم لمزيد من التعليقات التوضيحية من خلال البحث في الخطوة 1. ومن هذه الخطوة، غالبًا ما يعود المستخدمون إلى الخطوة 1 أو الخطوة 2 لتحسين تعليقاتهم التوضيحية.

لتقييم حجم الفيديو، طلبنا من ثلاثة خبراء فيديو إضافة تعليقات توضيحية لمجموعة متنوعة من 56 تصنيفًا عبر مجموعة فيديو مكونة من 500 ألف لقطة. قمنا بمقارنة VA بأداء بعض الطرق الأساسية، ولاحظنا أن VA يؤدي إلى إنشاء مصنفات فيديو ذات جودة أعلى. يقارن الشكل 5 أداء VA بخطوط الأساس كدالة لعدد المقاطع المشروحة.

الشكل 5- جودة النموذج (أي متوسط ​​الدقة) كدالة لعدد المقاطع المشروحة لملصق “إنشاء اللقطات”. ونلاحظ أن جميع الأساليب تتفوق على خط الأساس، وأن جميع الأساليب تستفيد من البيانات المشروحة الإضافية، وإن كان ذلك بدرجات متفاوتة.

يمكنك العثور على مزيد من التفاصيل حول VA وتجاربنا في هذه الورقة.

لقد قدمنا ​​Video Annotator (VA)، وهو إطار عمل تفاعلي يعالج العديد من التحديات المرتبطة بالتقنيات التقليدية لتدريب مصنفات التعلم الآلي. يستفيد VA من إمكانات الإطلاق الصفري لنماذج لغة الرؤية الكبيرة وتقنيات التعلم النشط لتعزيز كفاءة العينة وخفض التكاليف. وهو يقدم نهجا فريدا للتعليق على مجموعات بيانات تصنيف الفيديو وإدارتها وتكرارها، مع التركيز على المشاركة المباشرة لخبراء المجال في نظام الإنسان في الحلقة. من خلال تمكين هؤلاء المستخدمين من اتخاذ قرارات مستنيرة بسرعة بشأن العينات الصلبة أثناء عملية التعليق التوضيحي، يزيد VA من الكفاءة الإجمالية للنظام. علاوة على ذلك، فهو يسمح بعملية تعليق توضيحية مستمرة، مما يسمح للمستخدمين بنشر النماذج بسرعة، ومراقبة جودتها في الإنتاج، وإصلاح أي حالات حافة بسرعة.

تعمل بنية الخدمة الذاتية هذه على تمكين خبراء المجال من إجراء تحسينات دون المشاركة النشطة لعلماء البيانات أو المعلقين الخارجيين، وتعزز الشعور بالملكية، وبالتالي بناء الثقة في النظام.

لقد أجرينا تجارب لدراسة أداء VA، ووجدنا أنه يؤدي إلى تحسن متوسط ​​بمقدار 8.3 نقطة في متوسط ​​الدقة مقارنةً بخط الأساس الأكثر تنافسية عبر مجموعة واسعة من مهام فهم الفيديو. قمنا بإصدار مجموعة بيانات تحتوي على 153 ألف تصنيف عبر 56 مهمة لفهم الفيديو تم شرحها بواسطة ثلاثة محررين فيديو محترفين باستخدام VA، كما قمنا أيضًا بإصدار تعليمات برمجية لتكرار تجاربنا.


اكتشاف المزيد من هيدب فيديو

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من هيدب فيديو

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading