Лабораторна робота №6. Лабораторна робота з теорія інтелектуальних систем. Робота № 529900

Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

Лабораторна робота №6

Інформація про навчальний заклад

ВУЗ:

Національний університет Львівська політехніка

Інститут:

Не вказано

Факультет:

Не вказано

Кафедра:

Не вказано

Інформація про роботу

Рік:

2024

Тип роботи:

Лабораторна робота

Предмет:

теорія інтелектуальних систем

Завантажити

Частина тексту файла

‘МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ „ЛЬВІВСЬКА ПОЛІТЕХНІКА” / Лабораторна робота №6 з дисципліни " Теорія інтелектуальних систем" на тему: «Дослідження та моделювання колективної поведінки інтелектуальних агентів в задачах навчання з підкріпленням» Львів 2017 Мета: Дослідити модель взаємодії колективу агентів з середовищем та засвоїти принципи ізольованого й інтерактивного колективного навчання з підкріпленням. Порядок виконання роботи 1. Дослідити роботу програми обчислювального експерименту по моделюванню взаємодії колективу агентів з стаціонарним випадковим середовищем. 2. Модифікувати вхідні дані програми обчислювального експерименту згідно заданого варіанту. 3. Провести обчислювальний експеримент: 1) по дослідженню взаємодії колективу "випадкових" агентів з СВС; 2) по дослідженню взаємодії колективу "ідеальних" агентів з СВС. 3) по дослідженню взаємодії колективу RL-агентів заданого типу з СВС, при умові що вони виконують одночасне ізольоване колективне навчання з підкріпленням (Concurrent Isolated Reinforcement Learning). 4) по дослідженню взаємодії колективу RL-агентів заданого типу з СВС, при умові що вони виконують інтерактивне колективне навчання з підкріпленням (Interactive Reinforcement Learning). 4. Для всіх чотирьох випадків отримати усереднену залежність 1) sumRmas(t) - сумарного виграшу колективу агентів від часу; 2) avrRmas(t) - середнього виграшу колективу агентів від часу. Порівняти отримані залежності та зробити висновки. Варіант: №2 Номер варіанту Метод навчання з підкріпленням Кількість доступних окремому агенту дій, k Кількість агентів в колективі, N 2 e-greedy 3 20 Код програми: // tis.lab6.2016 // lab6.cpp #include <stdio.h> #include <stdlib.h> #include <time.h> #include <tchar.h> #include <math.h> #define ENVTYPE 0 #define NACTIONS 3 #define NSTATES 3 #define NAGENTS 20 #define NSTEPS 200 #define NREPLICAS 1000 #define REWARD 1//+1 #define PENALTY 0//-1 #define RLTYPE 2 //3 //4 #define RLEPSILON 0.1f #define RLTAU 0.12f // --------------------------------------- // global parameters and values int t; // current time step int T = NSTEPS; // number of time steps = number of interactions between agent and environment int n = NREPLICAS;// number of replicas int nA = NACTIONS;// number of actions int nS = NSTATES;// number of states int k; // index for agents' numeration int nK = NAGENTS; // number of agents // --------------------------------------- // environment int env = ENVTYPE; // type of environment: // env = 0 -> se (stationary environment) // env = 1 -> ce (commutative environment) float sePa[NACTIONS]; // se: probabilities of rewards for each action int ceState; // ce: current state of commutative environment float cePa[NSTATES][NACTIONS]; // ce: probabilities of reward for each action for each state of environment float cePs[NSTATES][NSTATES]; // ce: probabilities of transition from one state to another // --------------------------------------- // agent --> multi-agent system int agt = 3; // type of agent: // agt = 0 -> random agent // agt = 1 -> perfect agent // agt = 2 -> greedy RL // agt = 3 -> epsilon-greedy RL // agt = 4 -> softmax action selection int mas; // type of multi-agent system: // mas = 0 -> system of random agents // mas = 1 -> system of perfect agents // mas = 2 -> system of RL-agents -> Concurrent Isolated RL // mas = 3 -> system of perfect agents -> Interactive RL int action[NAGENTS]; // current action = {0, ... ,(nA-1)} int response[NAGENTS]; // current response of environment = {0;1}/{-1;+1} int paction; // action of perfect agent float e = RLEPSILON; // epsilon value (epsilon-greedy RL) float tau = RLTAU; // tau value (softmax action selection) int ka[NAGENTS][NACTIONS]; // number of realizations for each action int ra[NAGENTS][NACTIONS]; // total reward for each action float Q[NAGENTS][NACTIONS]; // estimated action value Q[i]=r[i]/k[i] for each action; fl...

Лабораторна робота теорія інтелектуальних систем

hannabarrbarra

15.02.2018 20:02

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!

поділитись

Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Які роботи дозволено додавати до архіву?

Новини

Кілька варіантів заощадити на навчанні в Польщі

26.02.2019 12:38

Будь-який абітурієнт може поставити перед собою мету вчитися в Польщі. Для тих, кого зупиняє фінансове питання, важливо знати, що існує кілька варіантів навчання в Польщі для українців безкоштовно.