Міністерство освіти, науки, молоді та спорту України
Національний університет «Львівська політехніка»
Кафедра ІТВС
РОЗРАХУНКОВА РОБОТА
з дисципліни:
Математичні основи захисту даних від несанкціонованого доступу
20.09.2012
ОСНОВНА ГАЛУЗЬ ЗАСТОСУВАННЯ СИСТЕМИ І ЗАСОБІВ ШТУЧНОГО ІНТЕЛЕКТУ
Основний напрямок – інформаційно-аналітичні системи які мають компоненту інфор–маційну для збору даних і аналітичну для перетворення даних.
Data Mining – процес підтримки прийняття рішень, який базується на пошуку при–хованих закономірностей або знань які представлені в так званих «сирих даних». Data Mining – це є синтетична дисципліна, яка включає різні засоби знань. Включає математичну статистику.
Системи штучного інтелекту це є складова систем Data Mining. Крім того засоби штучного інтелекту використовують в різних галузях, включаючи побутові.
Штучний інтелект – це моделювання процесів інтелектуальної діяльності людей, а також тварин. В більшості літературних джерел говорять про сильний і слабкий штучний інтелект. Під сильним штучним інтелектом ми розуміємо створення програм і апаратних засобів, які дозволять відтворювати розумові і психічні функції людини. Слабкий штучний інтелект – це моделювання окремих функцій. Основоположниками штучного інтелекту були Алан Тюрінг та Френк Розенблат. Тюрінг розробив абстрактну модель Тюрінг 1 і 2. Він надав багато часу для розуміння штучного інтелекту і в результаті цієї праці був створений тест Тюрінга. Він полягає в наступному: задають запитання групі експертів, а а відповідає людина і комп’ютер. Якщо експерти не можуть відрізнити відповіді людини і комп’ютера це означає, що знайдено штучний інтелект. Заслугою Розенблата є винайдення першої діючої штучної нейрон-мережі для розпізнавання рукописних цифр. Марвін Мінський і Сеймур Пеперт – ці вчені опублікували книгу під назвою «Перцептрони».
21.09.2012
СИСТЕМИ ПІДТРИМКИ ПРИЙНЯТТЯ РІШЕНЬ (УПРАВЛІНСЬКИХ РІШЕНЬ)
Це окремий клас інформаційно-аналітичних систем. Побудова аналітичного блоку таких систем може базуватися на статистичних компонентах, компонентах виду OLAB, означає системи оперативного аналітичного опрацювання багатовимірних даних на базі компонентів Data Mining.
Порівнюючи дані підходи можемо відзначити статистичні компоненти використовують розроблену теоретичну основу перевірену практикою, але використовують усередині дані для прийняття рішень, що часто неефективно.
OLAB-системи ефективні для аналізу ретроспективних даних і мало придатні для передбачення та прогнозування. Найбільш ефективними вважаються побудовані на базі інтелектуалізованих систем Data Mining.
Пошук в сирих даних прихованих закономірностей або шаблонів інформації.
Вимоги до закономірностей або шаблонів:
Неочевидність;
Об’єктивність (відповідність реальних ситуацій);
Практична корисність – це означає, що виявлені закономірності можуть знайти практичне застосування. Особливостями системи прийняття рішень є використання знань.
Закономірності виявлені Data Mining формують базу знань. Знання – це сукупність відомостей, які формують цілісний опис об’єкта, процесу, явищ.
Business Intelligents (BI) – діловий або бізнес інтелект. Цей термін запропонований для опису концепцій, методів які сприяють покращенню бізнесу. BI – це сукупність програмних засобів, які функціонують в рамках корпорації підприємства і забезпечують функції доступу і аналізу даних, що знаходяться в сховищі даних і забезпечують прийняття ефективних управлінських рішень. Найбільш ефективною реалізацією BI-систем є використання засобів штучного інтелекту.
Висновки експертів щодо можливостей і перспектив систем Data Mining і систем штучного інтелекту.
Результати застосування таких систем в значній мірі залежать від якості і рівня зібраних даних і в меншій мірі від можливостей зібраних алгоритмів.
Загальні висновки:
Data Mining засоби штучного інтелекту не можуть замінити аналітика.
Технологія не може дати відповіді на запитання які не були задані.
Висока здатність розроблення і впровадження систем Data Mining. Цей напрямок є мультидисциплінарним, тут необхідна співпраця багатьох фахівців.
Впровадження систем такого типу пов’язана Зі зміною стилю роботи корпорації.
В багатьох випадках складність і висока вартість отримання даних.
Висока вага попереднього опрацювання даних.
ДАНІ ТИПИ ДАНИХ
Всі системи і засоби штучного інтелекту працюють з даними, що приходять на їх вхід. Дані – табличні дані, текст, візуальні дані, зображення, звук, лінгвістичні описи. Всі ці дані використовують як вхідні для штучного інтелекту. Дані застосовуються для отриманої на основі них корисної, раніше не відомої інформації. Найчастіше будемо використовувати табличні дані.
Структура табличних даних.
Таблиці містять колонки і рядки. Таблиця може бути названою матрицею реалізації. Кожна реалізація представляє собою одне спостереження за клієнтом. Рядок ми можемо назвати вектором реалізації. Стовбець таблиці може бути компонентою вектора. Використовується назва атрибут об’єкта.
Генеральна сукупність – це вся сукупність об’єктів які ми досліджуємо, або всі можливі вектори реалізації. В більшості випадків генеральна сукупність недоступна для дослідника.
Вибірка даних – вибірка з генеральної сукупності. Вимоги до вибірки: вона повинна бути представницькою, тобто описувати процес в достатній мірі.
Поняття вимірювання – процес надання атрибутам певних значень.
Шкала вимірювань – це правило присвоювань значень атрибутам.
Типи шкал:
Номінальна – це шкала яка містить тільки категорії. Дані до цієї шкали не впорядковуються і з ними не виконуються ніякі дії (приклад – професфя).
Порядкова – шкала в якій реалізації присвоюють певні номери, ці номери не дозволяють наскільки існує відмінність між реалізаціями (приклад – номер рейтингу студента).
Інтервальна – різниця між значеннями може бути обчислена, але відношення між значеннями не мають змісту.
Відносна – шкала яка допускає відношення між значеннями.
Дихотомічна – яка містить дві категорії (приклад: чоловік – жінка).
Лінгвістична.
Способи представлення наборів даних:
Табличний – кожен рядок таблиці має однакове число атрибутів, або ознак, кількість колонок постійна. Окремим варіантом є таблиця з пропусками даних.
Транзакційний – це варіант представлення даних де вектори реалізації можуть мати різну кількість атрибутів.
Графічний – представлений графом, або картами особливостей.
Аудіо – в системах штучного інтелекту використовують всі типи представлення даних, також інтерфейси для вводу даних.
Види даних:
Реляційні;
Одновимірні;
Багатовимірні;
Часові послідовності (дані прив’язані до їх часу отримання);
Метадані (дані про дані: каталоги, довідники, словники).
28.09.2012
ЕЛЕМЕНТИ ПРЕПРОЦЕСУВАННЯ ДАНИХ
Процедура масштабування даних
Перший метод масштабування даних:
Для кожного стовпця таблиці Xij (i – номер рядка, j – номер стовпця). Отже кожен елемент стовпця поділити на max-ий по модулю елемент.
Другий метод: Симетричне масштабування
Xij = (2* Xij – Xmaxij – Xminij) / Xmaxij – Xminij,
де Xmax – максимальний елемент стовпця, Xmin – мінімальний елемент стовпця.
Метод масштабування по рядках
Масштабування виконується в кожному рядку окремо для і=1. Кожна компонента вектора ділиться на суму кореня. Дамо геометричну інтерпретацію. Нехай jmax=2 (вектори двовимірні). Вектор і точка є тотожні поняття. Точка представляється координатами кінця вектора. Задана таблиця може бути представлена набором точок в багатовимірному просторі. Після масштабування по рядках кожному рядку таблиці буде відповідати тачка на колі з одиничним радіусом. Для jmax=2 кожен рядок буде представлений точкою в середині квадрата. Для jmax=3 будемо мати куб і кулю. Для симетричного масштабування точки будуть представлені в кубі. Для jmax>3 точки представлені в гіперкубі та гіперкулі.
Препроцесування лінгвістичних даних
Незалежно від подання засоби штучного інтелекту використовують дані в числовій формі. Перевід даних чітких в нечітку форму носить назву фазифікація, нечітких в чітку – дефазифікація.
Основні напрямки досліджень систем штучного інтелекту
Існує два базові напрямки:
Символізм
Конекціонізм
Символізм можна розглядати як моделювання процесів розумової і нервової діяльності на найвищому рівні.
Конекціонізм – це моделювання процесів розумової і нервової діяльності на найнищому рівні, тобто на рівні біологічних нейронів з яких складається нервова система.
Основні методи в рамках символізму
Метод представлення задач і пошуку розв’язків.
Представлення задач може бути здійснене в просторі станів або в просторі під задач. Практичне застосування має місце в системах технічного зору, системах розпізнавання і опрацювання мови.
Доведення теорем.
Є важливим напрямком. Обмеження виконані великою кількістю логічних умов.
Представлення знань і побудова баз знань
В штучному інтелекті під знаннями розуміють будь-які формалізовані здібності, які використовують в процесах логічного виведення. Напрямки досліджень в системах штучного інтелекту взаємопов’язані. Використовують чотири базові моделі представлення знань:
Логічна.
Продукційна – базується на правилах.
Фреймова.
Модель семантичних мереж.
Найбільше значення мають продукційні методи.
Експертні системи – важливий напрямок в галузі штучного інтелекту. Будуються на основі логічних моделей, успішно створено ряд діючих систем такого типу, однак є цілий ряд провалів в спробах створити експертні системи.
Окремим напрямком в системах штучного інтелекту є напрямок розпізнавання образів, який стосується різних предметних областей. Під поняття образ можуть бути включені зорові, звукові образи, стани технологічних процесів і інше. Підходи до кожного з варіантів образів можуть кардинально відрізнятися, хоча існують і схожі риси.
Нечітка логіка
Такі системи розділяються на 2 класи:
Реляційні.
Продукційні.
Для різних напрямків штучного інтелекту розроблено ряд спеціальних мов програмування проблемно орієнтованих.
Алгоритми систем штучного інтелекту які відносяться до напрямку символізм.
Алгоритм імітації відпалу металу. Область застосування алгоритму: розв’язок задач глобальної оптимізації. Прототип методу. В основі методу лежить реальний процес металургії – нагрівання металу до високої температури, контрольоване охолодження металу з метою отримання регулярної бездефектної кристалічної решітки. В цьому методі поняття енергії , яке відповідає значенню цільової функції є вхідні параметри процесу які відповідають вхідним змінним, що оптимізуються. Є поняття температури, висока температура – високий енергетичний стан, в процесі оптимізації t=0.
Блок-схема перетворення алгоритму:
– біжучий розв’язок
робочий розв’язок
кращий розв’язок
Кращим рішенням є таке де у є меншим. У є цільовою і ми повинні найти таке значення х1 і х2, де у – мінімальне в глобальному сенсі.
5.10.2012
ГЕНЕТИЧНІ АЛГОРИТМИ
Генетичні алгоритми – це широкий клас алгоритмів, які застосовуються для здійснення глобальної оптимізації.
В основі алгоритму є моделювання біологічного процесу природної еволюції, яка була відкрита Дарвіном. Принцип еволюції: виживають і дають потомство найбільш пристосовані індивіда. В основу алгоритму закладено три види процедур:
Процедура селекції;
Процедура схрещування;
Процедура ініціалізації.
Нехай нам необхідно знайти максимум функції двох змінних. Перший крок – початкова ініціалізація. Вона здійснюється так: випадковим чином задаються чотири пари аргументів можливих розв’язків. Значення х1 та х2 називають набором хромосом. Вихід у назвем здоров’ям. Створюємо ще один набір розв’язків. Перший набір назвемо батьківським, а другий материнським. Виконуємо схрещення. Викидаємо найгірші хромосоми з набору, а хромосома потомства складається одна від батьківського набору, інша з материнської. Схрещування здійснюється випадковим чином. Для задач більшої вимірності методів схрещення є більше і здійснюються вони методом реалізації.
Наступна процедура мутації. В природі мутація хромосоми здійснюється за рахунок радіоактивного випромінювання. В генетичних алгоритмах здійснюються нові зміни генів хромосом.
ШТУЧНІ НЕЙРОМЕРЕЖІ
Історія розвитку штучних нейромереж.
Розуміння функціонування нейрона і картини його зв'язків дозволило дослідникам створити математичні моделі для перевірки своїх теорій. У перших же роботах з'ясувалося, що ці моделі не тільки повторюють функції мозку, але і здатні виконувати функції, що мають свою власну цінність. Тому виникли й залишаються до сьогодні дві взаємнозбагачуючі цілі нейронного моделювання:
перша — зрозуміти функціонування нервової системи людини на рівні фізіології і психології і
друга — створити обчислювальні системи (штучні нейронні мережі), що виконують функції, схожі з функціями мозку.
Перший крок був зроблений у 1943 р. з появою статті нейрофізіолога Уоррена Маккалоха (Warren McCulloch) і математика Волтера Піттса (Walter Pitts) про роботу штучних нейронів і представлення моделі нейронної мережі на електричних схемах.
Біологічний нейрон складається з тіла, діаметром від 3 до 100 мкм, що містить ядро (з великою кількістю ядерних пор) та інші органели (у тому числі сильно розвинений шорсткий ЕПРз активними рибосомами, апарат Гольджі), і відростків. Виділяють два види відростків. Аксон - зазвичай довгий відросток, пристосований для проведення збудження від тіла нейрона.Дендрити - як правило, короткі і сильно розгалужені відростки, які служать головним місцем утворення збуджуючих і гальмівних синапсів (різні нейрони мають різне співвідношення довжини аксона і дендритів). Нейрон може мати кілька дендритів і зазвичай тільки один аксон. Один нейрон може мати зв'язки з десятками тисяч інших нейронів. Кора головного мозкулюдини містить десятки мільярдів нейронів.
Зв'язки, по яких вихідні сигнали одних нейронів надходять на входи інших, часто називають синапсами за аналогією зі зв'язками між біологічними нейронами. Кожен зв'язок характеризується своєю вагою. Зв'язки з позитивною вагою називаються збудливими, а з негативною - гальмівними. Нейрон має один вихід, який часто називають аксоном за аналогією з біологічним прототипом. З єдиного виходу нейрона сигнал може надходити на довільне число входів інших нейронів.
Схема штучного нейрону
1. Нейрони, вихідні сигнали яких надходять на вхід даного нейрону2. Суматор вхідних сигналів3. Обчислювач передавальної функції4. Нейрони, на входи яких подається сигнал даного нейрону5. / — ваги вхідних сигналів
Основні функції нейрона:
сприйняття сигналів;
гальмування;
збудження;
формування вихідного сигналу.
Перцептрон
/
Схема штучного нейрону — базового елементу будь-якої нейронної мережі
В 1943 році в своїй статті «Логічне числення ідей, що відносяться до нервової активності» Уоррен Мак-Каллок і Уолтер Піттс запропонували поняття штучної нейронної мережі. Зокрема, ними була запропонована модель штучного нейрону. Дональд Хебб в роботі «Організація поведінки» в 1949 році описав основні принципи навчання нейронів.
Ці ідеї кілька років пізніше розвинув американський нейрофізіолог Френк Розенблат. Він запропонував схему пристрою, що моделює процеслюдського сприйняття, і назвав його «перцептроном». Перцептрон передавав сигнали від фотоелементів, що представляють собою сенсорне поле, в блоки електромеханічних елементів пам'яті. Ці комірки з'єднувалися між собою випадковим чином відповідно до принципів конективізму. В 1957році в Корнельській Лабораторії Аеронавтики успішно було завершено моделювання роботи перцептрона на комп'ютері IBM 704, а два роки пізніше, 23 червня 1960 року в Корнельському університеті, був продемонстрований перший нейрокомп'ютер — «Марк-1», який був здатний розпізнавати деякі з букв англійського алфавіту.
Перцептрон складається з трьох типів елементів, а саме: сенсорні, асоціативні та реагуючі. Сигнали, що надходять від сенсорних елементів передаються асоціативним, а потім реагуючим елементам. Таким чином, перцептрони дозволяють створити набір «асоціацій» між вхідними стимулами і необхідною реакцією на виході. В біологічному плані це відповідає перетворенню, наприклад, зорової інформації в фізіологічну відповідь рухових нейронів. Відповідно до сучасної термінології, перцептрони можуть бути класифіковані як штучні нейронні мережі:
З одним прихованим шаром;
З пороговою передавальною функцією;
З прямим розповсюдженням сигналу.
Напрямки застосування штучних нейромереж:
Класифікації та задачі розділення інформаційних об’єктів на класи.
Задачі розпізнавання образів.
Задачі регресії.
Задачі нелінійної динаміки.
Способи реалізації штучних нейромереж:
Апаратний – формальні нейрони будуються у вигляді електронних кіл.
Програмний – у вигляді акумуляторів штучних нейромереж. Цей спосіб дешевший, але нейрони такого типу повільніші.
Використання програм штучних нейромереж, а також нейро акселераторів які під’єднуються до персонального комп’ютера. Роль акселератора – пришвидшення базових операцій.
12.10.2012
ПАРАДИГМА ОДНОШАРОВОГО ПЕРЦЕПТРОНА
Структура перцептрона МАРК 1:
Для початку визначимо складові елементи перцептрона, які є частковими випадками штучного нейрону з пороговою функцією передачі.
Простим S-елементом (сенсорним) є чутливий елемент, який від дії будь-якого з видів енергії (наприклад, світла, звуку, тиску, тепла тощо) виробляє сигнал. Якщо вхідний сигнал перевищує певний поріг θ, на виході елемента отримуємо 1, в іншому випадку — 0.
Простим A-елементом (асоціативним) називається логічний елемент, який дає вихідний сигнал 1, коли алгебраїчна сума його вхідних сигналів дорівнює або перевищує деяку граничну величину θ (кажуть, що елемент Активний), в іншому випадку вихід дорівнює нулю.
Простим R-елементом (реагує, то є чинним) називається елемент, який видає сигнал 1, якщо сума його вхідних сигналів є строго позитивною, і сигнал −1, якщо сума його вхідних сигналів є строго негативною. Якщо сума вхідних сигналів дорівнює нулю, вихід вважається або рівним нулю, або невизначеним.
Теорема Новікова.
Якщо подавати на вхід перцептрона навчальну вибірку достатню кількість разів, то відбудеться розділення елементів на класи.
Завдання XOR
Перцептрон не здатний вирішити «завдання XOR». Дуже поширена і найнесерйозніша заява. На зображенні праворуч показано вирішення цього завдання перцептроном. Ця помилка виникає, по-перше, через те, що неправильно інтерпретують визначення перцептрона, даного Мінським, а саме, предикати відразу прирівнюють до входів, хоча предикат у Мінського — це функція, що ідентифікує цілий набір вхідних значень. Предикат еквівалентний входу лише в окремому випадку — лише коли він залежить від одного аргументу. Інша причина виникає через те, що класичний перцептрон Розенблата плутають з одношаровим перцептроном .
В основі моделі "Функціонал на множині табличних функцій" (ФТФ) - представлення нейронної мережі довільної структури, в якій всі нейрони з'єднані між собою певною системою зв'язків, що можуть починатися з виходу довільного нейрона або від джерел вхідних сигналів.
/
Нейронна мережа з повною системою зв'язків
Ваги синаптичних зв'язків, що є зайвими для конкретної структури, можна приймати нульовими. Позначаючи кількість входів нейромережі через nx, а число нейронів - n, маємо nx+n входів для кожного нейрона. Проходження сигналу з входу на вихід нейрону передбачає обчислення зваженої суми та перетворення її у відповідності з передатною функцією нейрона. В цьому випадку вичерпним описом навченої нейромережі є представлення структури довільного нейрона та сукупності ваг зв'язків (рис. 2), де x1, ..., xn - вихідні сигнали нейронів; xn+1, ..., xn+nx - вхідні сигнали нейромережі; W1(i), ..., Wn+nx(i) - вагові коефіцієнти синаптичних зв'язків і-го нейрона.
/
Структурна схема нейронного елемента
Вихідний сигнал і-го нейронного елемента визначається через сигнали його входів
/
Так як для кожного нейрона в процесі задання структури та навчання нейромережі встановлюється свій набір синаптичних ваг, вважаємо, що вони є функціями від дискретного аргумента і - номера нейрона. Крім того кожному нейрону відповідає певна передатна функція Fi. Якщо набір векторів-реалізацій, що подаються на входи нейромережі при навчанні, контролі, використанні пронумерувати довільним чином N=1, 2, ..., Nm, .. , кожній реалізації поставити у відповідність певне число-характеристику, то кожній характеристиці реалізації N буде відповідати певний сигнал на виході кожного нейрона, який можна пов'язати з характеристикою реалізації функціонально, тобто
/,
де і=1, ..., n; N=1, 2,..., Nm, ...
Функції Fil, в яких аргументами є задані характеристики реалізацій, носять назву вихідних, на відміну від звичних передатних функцій Fi, аргументами яких є зважені суми по відповідних входах. Метою налаштування гетерогенних мереж є встановлення параметрів передатних функцій нейронів. Для нейронів зовнішніх прошарків передатні функції можуть бути задані на основі відомих моделей сигмоїдальних функцій, зокрема, th (x) (тангенс гіперболічний).
Вважається, що навчена нейромережа повністю задається множиною функцій синаптичних ваг {Wj(i)} та множиною вихідних функцій {Fi1(N)} де j=1, ..., n+nx. Під час функціонування на входи мережі подається вектор вхідних сигналів (xn+1, xn+2, ..., xn+nx), який можна трактувати як функцію від номера входу FN2(i). Ця функція є різною для кожної з реалізацій. Таким чином, заданим множинам функцій {Wj(i)}, {Fi1(N)} та функціїFN2(i) відповідає число, або вектор, що продукується нейромережею
Q [ {Wj(і)}, {Fi1(N)}, FN2(i)]=/,
де Q - оператор нейромережі, який розглядається, як функціонал від відповідних аргументних функцій табличного типу.
В зв'язку з цим і встановлена назва моделі - "Функціонал на множині табличних функцій" (ФТФ).
В кожному з випадків об'єкту (що моделюється з допомогою нейромережі) ставиться у відповідність гіпертіло, як геометричне місце його точок-реалізацій в просторі реалізацій, кожна з координат якого відповідає одній з ознак об'єкта. Здійснюється декомпозиція гіпертіла об'єкта на складові елементи, при цьому встановлюється система аналогій між елементами декомпозиції гіпертіла і аргументними функціями моделі нейромережі. Отже, фактично, процес навчання мережі здійснюється шляхом декомпозиції гіпертіла об'єкта, а алгоритм функціонування відповідає алгоритму композиції за встановленими (в процесі навчання) елементами.
Дамо геометричне тлумачення процедури навчання, описаної вище. Нехай, нейромережа призначена для відображення двохкомпонентного вектора X (x1, x2) в однокомпонентний y. Навчальну множину складають рядки матриці M - відповідні тренувальні пари
/
Процедура навчання одношарового перцептрона та інших нейромереж полягає в наступному:
початково ваговим коефіцієнтом W присвоюють випадкові початкові значення.
здійснюють крок навчання, який полягає в малих модифікаціях вагових коефіцієнтів.
після виконання чергового кроку точність функціонування може бути недостатньою, тому здійснюються повернення на крок 2, тобто навчальна нейрон-мережа є багатокроковим, ітеративним, а кінцеві значення W повинні забезпечити необхідну точність.
26.10.12
НАЛАГОДЖЕННЯ БАГАТОШАРОВИХ ПЕРЦЕПТОРІВ
Згідно з теореми Колмогорова перцептрон , який має один шар прихованих елементів з нелінійними функціями активації забезпечує апроксимацію будь-якої неперервної функції багатьох змінних з як завгодно заданою точністю. Обмеження на застосування багатошарових перцептронів немає, однак сам процес налагодження та навчання багатошарових перцептронів є об’ємним і займає багато часу.
Одношарові перцептори взагалі не передбачають налагодження, а навчання просте і швидке, однак вони можуть формувати лише лінійні поверхні відгуку розділяючи лише лінійно розділимі образи, тобто мають суттєві обмеження на застосування.
Послідовність налагодження і навчання багатошарових перцепторів
Налагодження і навчання здійснюється на підставі доступної вибірки даних.
Нехай розглянемо варіант навчання з супервізором. Дані запишемо у таблицю.
train
X1
X2
X3
Xn
y
valid
test
use
?
?
Беремо вибірку будь-якого розміру.
Мінімальний розмір вибірки Nmin=n*10. Кількість входів у нейромережі 10. Якість навчання найменших вибірок буде дуже низькою, для забезпечення високої якості бажано мати N=n*100
Вибірка для якої відомі вихідні значення розділяється на 3 підмножини.
Train- вибірка для навчання
Valid- використовується для налагодження, вибору параметрів
Test- для перевірки навченої нейромережі.
У випадку малих вибірок використовується для навчання практично всю наявну вибірку. Для тестування вибірка невеликого об’єму валідації вибірка відсутня. Для налагодження застосовують принцип крос-валідації ( перехресного оцінювання).
Принципи налагодження
До параметрів мережі належить: число прихованих шарів, число нейронних елементів у кожному з прихованих шарів.
Чим складніша поверхня відгуку, яка складається, тим складнішою би мала бути нейромережа. У випадку, якщо число шарів і нейронів є замалим – похибка навчання залишиться великою і мережа не буде достатньо функціональною. Якщо ж число нейронів і шарів буде завелике – виникне так званий ефект перенавчання, похибка на даних train буде низькою, а похибка на даних test буде великою. Мережа не буде володіти властивістю узагальнення (генералізації).
Отже складність мережі повинно узгоджуватися зі складністю поверхні відгуку і наявним об’ємом даних для навчання валідації і тестування. Тобто нейромережа має бути оптимально складною. Принцип оптимальної складності моделей розроблений академіком Івахненком О.Г
С - складність моделі
Пн - похибка навчання.
Чим складніша модель тим менша похибка навчання.
Пt – похибка тестування.
Спочатку вона зменшується ,для оптимальної складності похибка тестування є мінімальною, а далі йде збільшення похибки, модель стає пере ускладненою.
Принцип розроблений для методу групового урахування елементів, а саме для поліномінальних моделей. Принцип моделей оптимальної складності є універсальним.
МЕТОДИ, ОСОБЛИВОСТІ НАВЧАННЯ БАГАТОШАРОВИХ ПЕРЦЕПТОРІВ
Навчання здійснюється для заданої кількості шарів і нейронів, тобто для вибраних параметрів налагодження і вибраних функцій активацій.
У процесі налагодження навчання повторюється багаторазово, кожен раз для іншої кількості шарів і нейронів. Результати навчання запам’ятовуються і обирається найкращий варіант.
В якості функцій активацій як правило береться функція Фермі або функція тангенс гіперболічний.
Метою навчання є: встановлення вагових коефіцієнтів W , а також величин зміщень Ɵ. Параметри повинні обиратися таким чином, щоб похибка вихідного значення задовільняла вимогам задачі.
Загалом навчання багатошарових перцептронів (БШП) має постановку задачі багатокритеріальної і багатопараметричної оптимізації. Розв’язок такої задачі здійснюється за допомогою інтерактивних (багатокритеріальних) алгоритмів і займає тривалий час.
Процедура навчання