Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Не вказано
Факультет:
ЗІ
Кафедра:
Не вказано

Інформація про роботу

Рік:
2024
Тип роботи:
Лабораторна робота
Предмет:
Інтелектуальний аналіз даних

Частина тексту файла (без зображень, графіків і формул):

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА» Інститут сталого розвитку ім. В.Чорновола Лабораторна робота №1 З дисципліни «Інтелектуальний аналіз даних в підприємництві і торгівлі» Варіант №4 Робота з системою аналізу даних Weka Класифікація та асоціація даних Мета роботи: оволодіння базовими навичками роботи з системою аналізу даних Weka, ознайомлення з основними алгоритмами класифікації даних та методами складання асоціативних правил. Вступ Waikato Environment for Knowledge Analysis (WEKA), є вільно поширюваним програмним пакетом з відкритим вихідним кодом для аналізу даних. WEKA забезпечує графічний користувальницький інтерфейс для роботи з файлами даних і генерації візуальних результатів (у вигляді таблиць і графіків). Крім того, можливо інтегрувати WEKA, як і будь-яку іншу бібліотеку, у свої власні додатки, наприклад, для автоматизації аналізу даних на стороні сервера, використовуючи стандартний API. Ця програма дає можливість виконувати такі завдання аналізу даних: підготовка даних - попередня обробка; відбір ознак; кластеризація; класифікація, зокрема, дерева рішень; пошук асоціативних правил; регресійний аналіз; візуалізація результатів; Переваги WEKA об'ємний набір алгоритмів з аналізу даних і машинного навчання; відкритий вихідний код; кросплатформеність; простота у використанні; гнучкість у роботі з даними, що вводяться; вільний доступ. Хід роботи Завдання 1 Метод J4.8 Рис.1. Результат роботи класифікаційної моделі J4.8 Рис.2. Перевірка класифікаційного дерева J4.8 / Рис.3. Візуальне подання дерева класифікації J48 Найбільш суттєві дані - це показники класифікації "Correctly Classified Instances" (84.1%) і "Incorrectly Classified Instances" (15.8%). Таблиця Confusion Matrix показує кількість хибно-позитивних (646) і хибно-негативних (112) розпізнавань. Оскільки показник точності нашої моделі – 84.1%, то в первісному розгляді її не можна назвати хорошою. Метод наївного Байєса / Рис.4. Результат роботи класифікаційної моделі наївного Байєса / Рис.5. Перевірка класифікаційного дерева наївного Байєса Найбільш суттєві дані - це показники класифікації "Correctly Classified Instances" (76.3%) і "Incorrectly Classified Instances" (23.6%). Таблиця Confusion Matrix показує кількість хибно-позитивних (586) і хибно-негативних (182) розпізнавань. Оскільки показник точності нашої моделі – 76.3%, то в первісному розгляді її не можна назвати досить хорошою. Метод OneR / Рис.6. Результат роботи класифікаційної моделі OneR / Рис.7. Перевірка класифікаційного дерева OneR Найбільш суттєві дані - це показники класифікації "Correctly Classified Instances" (76.4%) і "Incorrectly Classified Instances" (23.5%). Таблиця Confusion Matrix показує кількість хибно-позитивних (587) і хибно-негативних (181) розпізнавань. Оскільки показник точності нашої моделі - 59,1%, то в первісному розгляді її не можна назвати досить хорошою. Завдання 2 / Рис.8. Огляд результатів у таблиці ранжування. Ми бачимо, що обидва алгоритми J48 і OneR мають по одній перемозі, а ZeroR має два програші. Це добре, це означає, що OneR і J48 є потенційними претендентами. / Рис.9. Відображення показників точності. Бачимо, що обидва алгоритми OneR і J48 біля своїх результатів мають маленьке ―v‖. Це означає, що різниця в точності цих алгоритмів у порівнянні з ZeroR є статистично значущою. Спостерігаємо, що точність цих алгоритмів у порівнянні з ZeroR є вищою, тому можна констатувати, що ці два алгоритми досягають статистично значно кращий результат, ніж ZeroR. Показник для J48 є вищим ніж для OneR, тому далі потрібно дослідити чи різниця між цими двома оцінками точності є значною. / Рис.10. Порівняння показників точності методів J48 та OneR Бачимо, що ZeroR поруч з результатами має «*», це вказує на те що його результати порівняно з J48 статистично відрізняються. Але це ми вже знаємо. Ми не бачимо «*» поруч з результатами алгоритму OneR. Це говорить про те, що, хоча середня точність між J48 і OneR відрізняється, відмінності не є статистично значущими. За таких умов, для розв’язку поставленої задачі можна вибрати алгоритм OneR, оскільки він простіший з цих двох алгоритмів. Підсумовуючи результати, можна сказати, що алгоритм OneR досягає точність класифікації на 71.5% (+/- 5.02%), що статистично значно краще, ніж ZeroR при 65.1% (+/- 0.34%). Завдання 3 / Рис.11. Дані покупок клієнтів для побудови асоціативних правил в WEKA. Рис.12. Результат роботи алгоритму Apriori Правила представлені у форматі антедецент => консеквент (умова-наслідок). Число пов’язане з антедецентом є абсолютним охопленням набору даних (в даному випадку 4,627). Число поруч з консеквентом це абсолютне число випадків, які відповідають антецеденту і консеквенту. Число в дужках (в кінці) є підтримкою правила (число антецедента поділене на число підбраних консеквентів). Бачимо, що всі представлені правила мають консеквент з «хліба і торта». • Всі представлені правила вказують на високу загальну суму покупки. • «печиво» і «заморожені продукти» з'являються у багатьох з представлених правил. Висновок У даній лабалаторній роботі ми класифікували вихідні дані методом наївного Байєса, методомJ4.8 (модифікація С4.5), методом ID3 та 1R. Оскільки показник точності нашої моделі – 84.1%, то в первісному розгляді її можна назвати хорошою. Експериментально підібрали найкращий метод класифікації, використовуючи інтерфейс Weka Experimenter. Підсумовуючи результати, можна сказати, що алгоритм OneR досягає точність класифікації на 71.5% (+/- 5.02%), що статистично значно краще, ніж ZeroR при 65.1% (+/- 0.34%). Провели пошук асоціативних правил методом Apriori.
Антиботан аватар за замовчуванням

27.12.2017 01:12-

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Ділись своїми роботами та отримуй миттєві бонуси!

Маєш корисні навчальні матеріали, які припадають пилом на твоєму комп'ютері? Розрахункові, лабораторні, практичні чи контрольні роботи — завантажуй їх прямо зараз і одразу отримуй бали на свій рахунок! Заархівуй всі файли в один .zip (до 100 МБ) або завантажуй кожен файл окремо. Внесок у спільноту – це легкий спосіб допомогти іншим та отримати додаткові можливості на сайті. Твої старі роботи можуть приносити тобі нові нагороди!
Нічого не вибрано
0%

Оголошення від адміністратора

Антиботан аватар за замовчуванням

Подякувати Студентському архіву довільною сумою

Admin

26.02.2023 12:38

Дякуємо, що користуєтесь нашим архівом!