ارائه یک روش یادگیری تقویتی فازی برای سیستم های چند عامله

تومان40,000

توضیحات

چکیده

در این پایان نامه یک روش یادگیری تقویتی فازی برای بهبود قابلیت یادگیری سیستمهای چند عامله در محیط پیوسته معرفی شده است. بیشتر مسائل دنیای واقعی از فضای حالت پیوسته استفاده میکنند. بکار بردن فضای حالت پیوسته برای سیستمهای چند عامله یک امر مشکل می باشد. ما در این پایان نامه روشی ارائه نموده ایم، که دو مزیت نسبت به روش‌های یادگیری تقویتی مرسوم دارد. یکی این که تعداد فضای حالت یادگیری عاملها در محیط های چند عامله فقط به تعداد مجموعه های فازی که برای مشخص کردن وضعیت یک عامل استفاده شده است بستگی دارد. در حالی که در کارهای پیشین محیط بینایی عامل یا اندازه حوزه فعالیت عامل برای محاسبه فضای حالت سیستم مورد استفاده قرار می گرفت. یکی دیگر از مزایای این روش توانایی بالای آن در بکارگیری حل مسئله در فضای حالت پیوسته است. فضای حالت عاملهای یادگیرنده با افزایش تعداد یادگیر بطور نمایی افزایش میابد.در روشی که در این پایان نامه استفاده شده است، اندازه جدول کیو مستقل از تعداد عاملها می باشد.و این اندزه جدول به توابع عضویت متغییرهای ورودی سیستم استنتاج فازی وابسته است. نتایج بدست آمده از این روش برای حل مسئله شکار و شکارچی بیانگر موثر بودن این روش می باشد.همچنین در این پایان نامه با استفاده از روشهای یادگیری تکرار ارزش و یادگیری کیو با استفاده از دو نوع نرخ اکتشاف استخراج تطبیقی و ثابت مسئله یادگیری تقویتی یک ربات مسیر یاب مورد بررسی و حل قرار گرفته است.

 

فهرست

مقدمه

1-1- مقدمه…………………………………………………………………………………… 2

1-2-سابقه تحقیق در زمینه یادگیری تقویتی فازی.. 3

فصل دوم

یادگیری تقویتی

2-1-مقدمه……………………………………………………………………………………. 10

2-2-سیستمهای چند عاملی…. 10

2-2-1-کار گروهی……………………………  11

2-2-2-سیستم کنترل………………………..  11

2-2-3-کاربردها………………………………… 11

2-3-همکاری………………………………..  12

2-4-رقابت……………………………… 12

2-5-نشانه ورزی………………………… 13

2-6-ارتباط عاملها از طریق داده پردازش نشده. 13

2-6-1-اشتراک سنسورها………. 13

2-6-2-اشتراک رویدادها……………. 14

2-6-3-ارتباط عاملها از طریق داده پردازش شده(دانش) 15

2-6-4-یادگیری دسته جمعی 15

2-6-5-همکاری در یادگیری توزیع شده 16

2-6-6-حافظه جمعی………………………………..  16

2-6-7-جستجوی توزیع شده  17

2-6-8-نصیحت…………………………….   17

2-6-9-اشتراک رویکرد………………. 18

2-6-10-اشتراک رویکرد وزن دار. 18

2-7-معرفی یادگیری تقویتی………………………………………………………………….. 19

2-8-یادگیری تقویتی……………. 20

2-9-مسئله یادگیری تقویتی استاندارد. 23

2-10-خاصیت مارکوف و فرآیند تصمیم گیری مارکوف… 24

2-11-مدل های رفتار بهینه……. 27

2-12-برنامه ریزی پویا………………………. 29

2-13-روش تکرار ارزش…………………. 29

2-14-روش‌های مونت کارلو. 30

2-15-مدل بازیگر نقاد………… 31

2-16-روش‌های تفاوت زمانی.. 32

2-16-1-یادگیری کیو……………… 33

2-16-2-یادگیری سارسا…………… 34

2-17-رد پای شایستگی……………. 35

2-18-مسئله تعمیم و تقریب توابع. 35

2-18-1-تعمیم در فضای حالت    36

2-18-2-تعمیم در فضای عمل………………………………………………………………………………… ………………………………………………………………………………… 36

2-19-مسئله جستجو و بهره برداری.. 37

2-19-1-سیستمهای چند عاملی   37

2-19-2-کار گروهی………………     38

2-19-3-سیستم کنترل………………. 38

2-19-4-کاربردها………………………… 38

2-20-جمع‌بندی……………………….. 39

 

فصل سوم

یادگیری در سیستم های تک عامل

3-1مقدمه…………………………………………………………………………………………41

3-2-گذری بر طراحی ربات مسیر یاب… 41

3-3-شبیه سازی یک ربات مسیر یاب… 42

3-3-1-نرخ اکتشاف استخراج…………………………………………………………………………………. …………………………………………………………………………………. 41

3-3-2-نحوه انتخاب نرخ اکتشاف استخراج.. 44

3-4-روش تکرار ارزش…………. 45

3-5-روش یادگیر کیو………….. 47

3-6-مسئله شکار و شکارچی   51

3-6-1-تاریخچه:……………………. 51

اهمیت مسئله شکار و شکارچی: 53

3-7-جمع‌بندی……………………. 55

 

فصل چهارم   

ارائه یک روش تطبیقی در سیستم‌های چند عامله

4-1-مقدمه……………………………………… 57

4-2-مسئله شکار و شکارچی   57

4-3-محاسبه سیگنال تقویتی برای ارزیابی عملکرد سیستم.. 65

4-4-جمع بندی…………………… 72

 

فصل پنجم

جمع‌بندی و پیشنهادات

5-1 مقدمه……………………………………… 74

5-2جمع بندی…………………………….  74

5-2-پیشنهادات…………………………. 75

 

فهرست اشکال

عنوان                                                                                                                     صفحه

فصل اول

شکل ‏1‑1: دیاگرام مربوط به روشهای موجود در یادگیری تقویتی سیستمهای چند عامله. 8

فصل دوم

شکل ‏2‑1: مدل ابتدایی یادگیری تقویتی.. 21

شکل ‏2‑2: فرآیند تصمیم گیری مارکوف… 26

فصل سوم

 

شکل ‏3‑1:محیط مسئله. 42

شکل ‏3‑2:طرح ریزی مسیر با موانع متمرکز. 44

شکل ‏3‑3: طرح ریزی مسیر با موانع پراکنده. 44

شکل ‏3‑4: با نرخ اکتشاف و استخراج تطبیقی 03/0. 45

شکل ‏3‑5: با نرخ اکتشاف و استخراج تطبیقی 05/0. 46

شکل ‏3‑6: با عنصر نرخ اکتشاف و استخراج 07/0. 46

شکل ‏3‑7: نرخ تغییرات زمان همگرایی نسبت به نرخ اکتشاف و بهره برداری برای روش یادگیری تکرار ارزش    46

شکل ‏3‑8:الگوریتم یادگیری کیو با نرخ اکتشاف و استخراج تطبیقی015/0. 48

شکل ‏3‑9:الگوریتم یادگیری کیو با نرخ اکتشاف و استخراج تطبیقی03/0. 49

شکل ‏3‑10:الگوریتم یادگیری کیو با نرخ اکتشاف و استخراج تطبیقی05/0. 49

شکل ‏3‑11 :الگوریتم یادگیری کیو با نرخ اکتشاف و استخراج تطبیقی06/0. 49

شکل ‏3‑12: نرخ تغییرات زمان همگرایی نسبت به نرخ اکتشاف و استخراج.. 50

فصل چهارم

شکل ‏4‑1:ساختار سیستم استنتاج فازی برای مسئله شکار و شکارچی.. 58

شکل ‏4‑2: چرخ گردان. 60

شکل ‏4‑3:توابع عضویت فاصله نزدیکترین شکارچی به عامل.. 60

شکل ‏4‑4:توابع عضویت زاویه نزدیکترین شکارچی به عامل.. 61

شکل ‏4‑5:توابع عضویت فاصله نزدیکترین شکارچی به شکار. 61

شکل ‏4‑6:توابع عضویت زاویه نزدیکترین شکارچی به عامل.. 61

شکل ‏4‑8:محاسبه کردن ضرایب عضویت فازی.. 64

شکل ‏4‑9:محاسبه پاداش دریافتی توسط شکارچی.. 65

شکل ‏4‑10:موقعیت عامل ها نسبت به هم.. 66

شکل ‏4‑11:نرخ یادگیری عاملها بر اساس نرخ اکتشاف استخراج ثابت7/0. 67

شکل ‏4‑12: نرخ یادگیری عاملها بر اساس اکتشاف استخراج ثابت5/0. 67

شکل ‏4‑13: نرخ یادگیری عاملها بر اساس نرخ اکتشاف استخراج 05/0. 67

شکل ‏4‑14: نرخ یادگیری عاملها بر اساس نرخ اکتشاف استخراج02/0. 68

شکل ‏4‑15:نرخ یادگیری عاملها بر اساس نرخ اکتشاف استخراج 01/0. 68

شکل ‏4‑16:نرخ تغییرات زمان همگرایی متناسب با نرخ اکتشاف و بهره برداری تطبیقی.. 70

           

فهرست جداول

 

فصل سوم

جدول ‏3‑1: مقایسه مقادیر ثابت و تطبیقی.. 51

فصل چهارم

جدول ‏4‑1:پارامترهای مسئله. 58

جدول ‏4‑2:ساختار جدول کیو در مسئله شکار و شکارچی.. 59

جدول ‏4‑3:جدول قوانین فازی.. 62

جدول ‏4‑7:جدول قوانین فازی.. 62

جدول ‏4‑5 :جدول مقایسه بین دو روش تطبیقی و غیر تطبیقی.. 69

نقد و بررسی‌ها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ارائه یک روش یادگیری تقویتی فازی برای سیستم های چند عامله”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *