Lyapunov-Guided Deep Reinforcement Learning for Stable Low-Latency Task Offloading in Mobile Edge Computing

Riyadh A S Asbeetah; Alsanousi M  Aboujanah; Ramdan AM Khalifa

doi:10.65421/jibas.v2i2.99

المؤلفون

رياض علي اسبيطة قسم التقنيات الكهربائية والالكترونية، المعهد العالي للعلوم والتقنية تامزاوة الشاطئ، الشاطئ، ليبيا المؤلف
Alsanousi M Aboujanah قسم التقنيات الكهربائية والالكترونية، المعهد العالي للعلوم والتقنية تامزاوة الشاطئ، الشاطئ، ليبيا المؤلف
رمضان المبروك خليفة قسم التقنيات الكهربائية والالكترونية، المعهد العالي للعلوم والتقنية سوق الجمعة طرابلس، ليبيا المؤلف

DOI:

https://doi.org/10.65421/jibas.v2i2.99

الكلمات المفتاحية:

الحوسبة الطرفية المتنقلة (MEC)، التعلم العميق المعزز، تحسين ليابونوف، تفريغ المهام، DDPG، استقرار قائمة الانتظار، الجيل الخامس، إنترنت الأشياء، تقليل زمن الاستجابة

الملخص

تواجه شبكات الجيل الخامس (5G) وإنترنت الأشياء (IoT) تحدياتٍ حاسمة في تحقيق التوازن بين تقليل زمن الاستجابة واستهلاك الطاقة، مع ضمان استقرار طوابير البيانات في البيئات الديناميكية. تقترح هذه الورقة البحثية إطار عمل هجينًا مبتكرًا يدمج التحسين العشوائي القائم على نظرية ليابونوف مع خوارزمية تدرج السياسة الحتمية العميقة (DDPG)، ويُطلق عليه اسم LG-DDPG خوارزمية تدرج السياسة الحتمية العميقة الموجهة بنظرية ليابونوف). تُصاغ مشكلة تفريغ العمليات كعملية قرار ماركوف مقيدة (MDP)، ويُستنتج حدٌّ نظري أعلى لتكلفة النظام. يستخدم إطار العمل المقترح تقنية الانجراف بالإضافة إلى العقوبة (DPP) لفصل قيد الاستقرار طويل الأجل إلى مشاكل فرعية آنية، والتي تُحل بعد ذلك بواسطة بنية ممثل-ناقد قائمة على خوارزمية DDPG مع طبقات مخفية (256، 128، 64) باستخدام دوال التنشيط ReLU وTanh. أظهرت محاكاة شاملة - بمتوسط 10 عمليات تشغيل مستقلة - أن خوارزمية LG-DDPG تحقق انخفاضًا بنسبة 35-45% في التكلفة الإجمالية للنظام مقارنةً بأحدث التقنيات، بمتوسط زمن استجابة يبلغ 45.2 ± 1.3 مللي ثانية واستهلاك طاقة يبلغ 2.1 ± 0.1 جول، متفوقةً بذلك على مناهج التعلم العميق المعزز فقط (52.8 مللي ثانية)، وخوارزمية ليابونوف فقط (58.3 مللي ثانية)، وخوارزمية تحسين سرب الجسيمات (65.7 مللي ثانية). يتوسع النظام خطيًا ليشمل أكثر من 100 جهاز بتعقيد زمني O(N) مع براهين رياضية دقيقة تؤكد استقرار قائمة الانتظار وتقارب الشبكة العصبية.