التعلم العميق المعزز الموجه بواسطة ليابونوف لتحقيق استقرار نقل المهام بزمن استجابة منخفض في الحوسبة الطرفية المتنقلة
DOI:
https://doi.org/10.65421/jibas.v2i2.99الكلمات المفتاحية:
الحوسبة الطرفية المتنقلة (MEC)، التعلم العميق المعزز، تحسين ليابونوف، تفريغ المهام، DDPG، استقرار قائمة الانتظار، الجيل الخامس، إنترنت الأشياء، تقليل زمن الاستجابةالملخص
تواجه شبكات الجيل الخامس (5G) وإنترنت الأشياء (IoT) تحدياتٍ حاسمة في تحقيق التوازن بين تقليل زمن الاستجابة واستهلاك الطاقة، مع ضمان استقرار طوابير البيانات في البيئات الديناميكية. تقترح هذه الورقة البحثية إطار عمل هجينًا مبتكرًا يدمج التحسين العشوائي القائم على نظرية ليابونوف مع خوارزمية تدرج السياسة الحتمية العميقة (DDPG)، ويُطلق عليه اسم LG-DDPG خوارزمية تدرج السياسة الحتمية العميقة الموجهة بنظرية ليابونوف). تُصاغ مشكلة تفريغ العمليات كعملية قرار ماركوف مقيدة (MDP)، ويُستنتج حدٌّ نظري أعلى لتكلفة النظام. يستخدم إطار العمل المقترح تقنية الانجراف بالإضافة إلى العقوبة (DPP) لفصل قيد الاستقرار طويل الأجل إلى مشاكل فرعية آنية، والتي تُحل بعد ذلك بواسطة بنية ممثل-ناقد قائمة على خوارزمية DDPG مع طبقات مخفية (256، 128، 64) باستخدام دوال التنشيط ReLU وTanh. أظهرت محاكاة شاملة - بمتوسط 10 عمليات تشغيل مستقلة - أن خوارزمية LG-DDPG تحقق انخفاضًا بنسبة 35-45% في التكلفة الإجمالية للنظام مقارنةً بأحدث التقنيات، بمتوسط زمن استجابة يبلغ 45.2 ± 1.3 مللي ثانية واستهلاك طاقة يبلغ 2.1 ± 0.1 جول، متفوقةً بذلك على مناهج التعلم العميق المعزز فقط (52.8 مللي ثانية)، وخوارزمية ليابونوف فقط (58.3 مللي ثانية)، وخوارزمية تحسين سرب الجسيمات (65.7 مللي ثانية). يتوسع النظام خطيًا ليشمل أكثر من 100 جهاز بتعقيد زمني O(N) مع براهين رياضية دقيقة تؤكد استقرار قائمة الانتظار وتقارب الشبكة العصبية.

