
- به قلم مدیر سایت
- ارسالی در تاریخ : یکشنبه 23 مرداد 1401 ساعت 8:00
عنوان نسخه انگلیسی پایان نامه: Decision-Making in Autonomous Driving using Reinforcement Learning
ترجمه عنوان پایان نامه به فارسی: تصمیم گیری در رانندگی خودمختار با استفاده از یادگیری تقویتی
مقطع تحصیلی: دکترا
سال انتشار: 2021
ناشر: دانشگاه صنعتی چالمرز سوئد (Chalmers University of Technology)
چکیده: موضوع اصلی این پایان نامه که به زبان انگلیسی منتشر شده است، تصمیم گیری تاکتیکی برای رانندگی خودمختار است. یک وسیله نقلیه خودران باید بتواند مجموعه متنوعی از محیطها و موقعیتهای ترافیکی را مدیریت کند. تعیین دستی یک رفتار مناسب برای هر سناریو امری دشوار است. از این رو در این پایان نامه راهبرد یادگیری محور در نظر گرفته شده است که نگرش متفاوتی را بر اساس یادگیری تقویتی (RL) معرفی می کند.
به این منظور، یک عامل تصمیم گیری کلی، مشتق شده از الگوریتم Deep Q-Network (DQN)، پیشنهاد شده است. با تغییرات کمی، این روش را می توان در محیط های رانندگی مختلف اعمال کرد که برای سناریوهای مختلف بزرگراه و تقاطع شبیه سازی شده است. یک عامل کارآمدتر نمونه را می توان با ترکیب بیشتر دانش دامنه به دست آورد، که با ترکیب برنامه ریزی و یادگیری در قالب جستجوی درخت مونت کارلو و RL مورد بررسی قرار می گیرد. در سناریوهای بزرگراه های مختلف، روش ترکیبی با استفاده از یک برنامه ریزی یا یک استراتژی مبتنی بر یادگیری به طور جداگانه عملکرد بهتری دارد و به نمونه های آموزشی با مقدار کمتری نسبت به روش DQN نیاز دارد.
اشکال بسیاری از رویکردهای مبتنی بر یادگیری این است که آنها راه حل های جعبه سیاه ایجاد می کنند، که نشان دهنده اطمینان تصمیم های عامل نیست. بنابراین، در این پژوهش روش شبکههای چندگانه گروهی (EQN) معرفی میشود که RL توزیعی را با رویکرد گروهی ترکیب میکند تا تخمینی از عدم قطعیت اصلی و معرفتی هر تصمیم ارائه دهد. نتایج نشان میدهد که روش EQN میتواند ریسک و بازده زمانی را در سناریوهای مختلف تقاطع مسدود شده متعادل کند و در عین حال موقعیتهایی را که عامل برای آنها آموزش ندیده است، شناسایی کند. بنابراین، عامل می تواند از تصمیم گیری های بی اساس و بالقوه خطرناک خارج از حوزه آموزش اجتناب کند. در نهایت، این پایان نامه یک معماری شبکه عصبی را معرفی میکند که نسبت به ترتیبی که وسایل نقلیه اطراف فهرست میشوند، ثابت است. این معماری بازده نمونه عامل را با فاکتوریل بهبود می بخشد.
سالانه بیش از یک میلیون نفر در تصادفات رانندگی کشته می شوند. ایمنی ترافیک را می توان با استفاده از هوش مصنوعی برای جایگزینی رانندگان انسانی بهبود بخشید. علاوه بر این، بهرهوری وسایل نقلیه تجاری نیز میتواند زمانی که به رانندگان انسانی کمتری نیاز است افزایش یابد. یک راننده مصنوعی باید بتواند مجموعه متنوعی از محیطها و موقعیتهای ترافیکی را مدیریت کند، که تعیین دستی یک رفتار مناسب برای هر سناریو ممکن را دشوار میکند. بنابراین، این پایان نامه رویکردی به نام یادگیری تقویتی (RL) را در نظر می گیرد، که در آن محرک مصنوعی در عوض می آموزد که چگونه با کاوش در جهان از طریق آزمون و خطا رفتار کند. با پاداش دادن به رفتارهای مورد نظر و تنبیه رفتارهای ناخواسته، راننده مصنوعی می تواند نحوه تصمیم گیری صحیح را بیاموزد.
نتایج پایاننامه نشان میدهد که روشهای مبتنی بر RL معرفی شده میتواند برای آموزش نحوه رفتار راننده مصنوعی در سناریوهای مختلف بزرگراه و تقاطع شبیهسازی شده استفاده شود. همچنین نتایج نشان میدهد که اگر یک مدل ساده از سناریوی ترافیک به راننده ارائه شود، میتواند رفتار مناسب را سریعتر بیاموزد. علاوه بر این، روشی معرفی شده است که به راننده اجازه می دهد تا میزان اطمینان خود را در مورد تصمیم های خود تخمین بزند. اگر راننده مصنوعی با موقعیتی مواجه شود که قبلاً ندیده است، مانند یک حیوان وحشی در جاده، می تواند در موارد نامشخص آنچه را باید انجام دهد، تشخیص دهد و به روشی احتیاطی عمل کند تا خطر تصادف را به حداقل برساند.
دانلود پایان نامه به زبان انگلیسی با فرمت PDF