محاسبه نقطه تعادل نش در روشهای یادگیری تقویتی چندعاملی
130 صفحه در قالب word
فهرست مطالب
2-1-2- بازیهای بدون رقابت... 15
2-1-3- بازیهای کاملاً رقابتی.. 16
2-1-4- بازیهای با تضاد جزئی.. 16
2-3-1- غلبه اکید در استراتژی محض.... 20
2-3-3- غلبه اکید در استراتژیهای مرکب... 22
2-5- نقطه تعادل کامل زیربازی.. 24
2-7- مفاهیم بسط یافته تعادل نش.... 25
2-7-3- نقطه تعادل کامل دست لرزان.. 27
2-7-5- نقطه تعادل پاسخ دو جانبهای (QRE). 31
2-7-6- نقطه تعادل شبه کامل.. 33
3- روشهای کلاسیک محاسبه نقطه تعادل نش 38
3-1- محاسبه نقطه تعادل نش در بازیهای نرمال.. 38
3-1-1- Lamke-hawson method. 38
3-1-2- Simple search method. 47
3-2- محاسبه نقطه تعادل نش در بازیهای پویا 51
3-2-1- الگوریتم استقراء معکوس... 51
4-3- فرآیند تصمیم گیری مارکوف... 58
4-3-3- روشهای حل فرآیندهای تصمیم گیری مارکوف... 63
4-4- روشهای یادگیری تک عاملی.. 67
4-4-2- الگوریتم Q-Learning. 68
5- یادگیری تقویتی چندعاملی.. 73
5-1-2- یادگیری Friend or Foe. 74
5-1-3- یادگیری Asymmetric-Q.. 75
5-1-5- Infinitesimal Gradient Ascent (IGA) 77
5-1-7- (Policy dynamic wolf) PD-Wolf. 80
6- محاسبه نقطه تعادل نش در یادگیری تقویتی n-عامله. 86
6-1- بازیهای مارکوف نرمال n-عامله. 87
6-1-1- استفاده از الگوریتم ژنتیک در محاسبه نقطه تعادل نش... 89
6-2- بازیهای مارکوف پویا n-عامله. 91
6-2-1- استفاده از روش استقراء معکوس تعمیم یافته در محاسبه نقطه تعادل نش... 92
7-1- شبیهسازی در محیط مشبک.... 95
7-1-1- استفاده از Q-Learning در محیطهای چندعاملی.. 95
7-1-2- مقایسه الگوریتم Nash-Q و Q-Learning. 97
7-1-3- محاسبه نقطه تعادل نش در یادگیری تقویتی چندعاملی.. 98
7-2- شبیه سازی بازار برق.. 100
چکیده
در این رساله، روش مناسبی جهت محاسبه نقطه تعادل نش در الگوریتمهای یادگیری تقویتی چندعاملی با تعداد زیاد عاملها مطرح شدهاست، که قادراست با ادغام محاسبات مربوط به نقطه تعادل نش و ایجاد مصالحه بین اکتشاف- استخراج، محاسبات را به صورت بهینه کاهش دهند. ترکیب یادگیری تقویتی تک- عاملی و تئوری بازی ایده اصلی اکثر روشهای یادگیری چندعاملی است. این روشها سعی دارند تا کل فرآیند یادگیری را به تعدادی متناهی از حالتهای تصمیمگیری چندعاملی با خاصیت مارکوف تقسیم کرده و با انتخاب نقطه تعادل نش در هر کدام از این مراحل به تدبیر بهینه برای هر عامل همگرا شوند. بنابراین محاسبه نقطه تعادل نش مسئله مهمی است که در حال حاضر مشکلاتی شامل پیچیدگی محاسبات در روشهای شناخته شده محاسبه نقطه تعادل نش، چندگانگی نقطه تعادل نش، و مختلط بودن نقطه تعادل نش باعث شده که اکثر روشهای پیشنهادی یادگیری تقویتی چندعاملی جایگاه مناسبی در حل مسائل دنیای واقعی پیدا نکنند. ناگفته نماند که تقریباً تمام روشهای یادگیری تقویتی چندعاملی مطرح شده، مبتنی بر روشهای off-policy بودهاند که نیازی به در نظر گرفتن مسئله رویه انتخاب عمل و اکتشاف در اثبات همگرایی ندارند. بنابراین در رویههای اجرایی پیشنهاد دادهاند که ابتدا نقطه تعادل نش محاسبه شده و سپس با روش ϵ-greedy مصالحه بین اکتشاف و استخراج برقرار شود.
محاسبه نقطه تعادل ϵ-نش در بازیهای نرمال در این رساله به صورت یک مسئله مینیممسازی تعریف شده که جواب آن توسط الگوریتمهای ژنتیک بدست آمدهاست. علاوه بر کاهش پیچیدگی روش محاسبه نقطه تعادل نش، با اضافه کردن جمله مناسب در محاسبه تابع برازندگی، هر عامل قادر است نقطه تعادل نش پارتو را محاسبه کند که مسئله چندگانگی نقاط تعادل نش را نیز مرتفع میسازد.
در پایان، روشهای پیشنهادی در حل مسئله بازار برق مورد استفاده قرار گرفتهاست. این مسئله که در سالهای اخیر توجه زیادی را به خود جلب کرده در این رساله به سه قسمت تقسیم شدهاست. در قسمت اول شرکت برق با هدف کاهش هزینهها یک مسئله برنامهریزی مقید را با کمک برنامهریزی خطی حل میکند. قیدهای این مسئله شامل لزوم تأمین نیازهای مصرفکنندگان و افت توان در خطوط انتقال انرژی میباشد. در قسمت دوم، هر ژنراتور با توجه به اطلاعات کسب شده مراحل قبلی اقدام به انتخاب قیمتگذاری جدید در ابتدای روز بعد میکند. این اطلاعات شامل قیمتهایی که خودش و دیگران به شرکت برق ارائه کردهاند و تصمیم شرکت برق (که منجر به پاداش (سود) برای خودش و دیگران شده) میباشد. این قسمت توسط الگوریتمهای ژنتیک حل شده است. در قسمت سوم، از همان اطلاعات ذکر شده در قسمت قبل به منظور اصلاح دیدگاهش برای روز گذشته استفاده میکند. الگوریتم یادگیری چندعاملی Nash-Q در این قسمت استفاده شده است. در حالت کلی، انرژی مورد نیاز شبکه و توپولوژی آن هر دو متغیر هستند. ولی در این رساله توپولوژی شبکه ثابت فرض شده است. شبیهسازیهای انجام شده نشان میدهد که روش ارائه شده به خوبی قادر به حل مسئله یادگیری تقویتی چندعاملی در مسائل کاربردی با تعداد عامل بیشتر از دو است.
ممکن است هنگام انتقال از فایل ورد به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است
متن کامل را می توانید در ادامه دانلود نمائید
چون فقط تکه هایی از متن پایان نامه برای نمونه در این صفحه درج شده است ولی در فایل دانلودی متن کامل پایان نامه همراه با تمام ضمائم (پیوست ها) با فرمت ورد word که قابل ویرایش و کپی کردن می باشند موجود است
محاسبه نقطه تعادل نش در روشهای یادگیری تقویتی چندعاملی