МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»
Інститут сталого розвитку ім. В.Чорновола
Лабораторна робота №1
З дисципліни «Інтелектуальний аналіз даних в підприємництві і торгівлі»
Варіант №4
Робота з системою аналізу даних Weka
Класифікація та асоціація даних
Мета роботи: оволодіння базовими навичками роботи з системою аналізу даних
Weka, ознайомлення з основними алгоритмами класифікації даних та методами
складання асоціативних правил.
Вступ
Waikato Environment for Knowledge Analysis (WEKA), є вільно поширюваним
програмним пакетом з відкритим вихідним кодом для аналізу даних.
WEKA забезпечує графічний користувальницький інтерфейс для роботи з файлами
даних і генерації візуальних результатів (у вигляді таблиць і графіків). Крім того, можливо
інтегрувати WEKA, як і будь-яку іншу бібліотеку, у свої власні додатки, наприклад, для
автоматизації аналізу даних на стороні сервера, використовуючи стандартний API.
Ця програма дає можливість виконувати такі завдання аналізу даних:
підготовка даних - попередня обробка;
відбір ознак;
кластеризація;
класифікація, зокрема, дерева рішень;
пошук асоціативних правил;
регресійний аналіз;
візуалізація результатів;
Переваги WEKA
об'ємний набір алгоритмів з аналізу даних і машинного навчання;
відкритий вихідний код;
кросплатформеність;
простота у використанні;
гнучкість у роботі з даними, що вводяться;
вільний доступ.
Хід роботи
Завдання 1
Метод J4.8
Рис.1. Результат роботи класифікаційної моделі J4.8
Рис.2. Перевірка класифікаційного дерева J4.8
/
Рис.3. Візуальне подання дерева класифікації J48
Найбільш суттєві дані - це показники класифікації "Correctly Classified Instances" (84.1%) і "Incorrectly Classified Instances" (15.8%). Таблиця Confusion Matrix показує кількість хибно-позитивних (646) і хибно-негативних (112) розпізнавань.
Оскільки показник точності нашої моделі – 84.1%, то в первісному розгляді її не можна назвати хорошою.
Метод наївного Байєса
/
Рис.4. Результат роботи класифікаційної моделі наївного Байєса
/
Рис.5. Перевірка класифікаційного дерева наївного Байєса
Найбільш суттєві дані - це показники класифікації "Correctly Classified Instances" (76.3%) і "Incorrectly Classified Instances" (23.6%). Таблиця Confusion Matrix показує кількість хибно-позитивних (586) і хибно-негативних (182) розпізнавань.
Оскільки показник точності нашої моделі – 76.3%, то в первісному розгляді її не можна назвати досить хорошою.
Метод OneR
/
Рис.6. Результат роботи класифікаційної моделі OneR
/
Рис.7. Перевірка класифікаційного дерева OneR
Найбільш суттєві дані - це показники класифікації "Correctly Classified Instances" (76.4%) і "Incorrectly Classified Instances" (23.5%). Таблиця Confusion Matrix показує кількість хибно-позитивних (587) і хибно-негативних (181) розпізнавань.
Оскільки показник точності нашої моделі - 59,1%, то в первісному розгляді її не можна назвати досить хорошою.
Завдання 2
/
Рис.8. Огляд результатів у таблиці ранжування.
Ми бачимо, що обидва алгоритми J48 і OneR мають по одній перемозі, а ZeroR має два програші. Це добре, це означає, що OneR і J48 є потенційними претендентами.
/
Рис.9. Відображення показників точності.
Бачимо, що обидва алгоритми OneR і J48 біля своїх результатів мають маленьке ―v‖.
Це означає, що різниця в точності цих алгоритмів у порівнянні з ZeroR є статистично
значущою. Спостерігаємо, що точність цих алгоритмів у порівнянні з ZeroR є вищою,
тому можна констатувати, що ці два алгоритми досягають статистично значно кращий
результат, ніж ZeroR.
Показник для J48 є вищим ніж для OneR, тому далі потрібно дослідити чи різниця між
цими двома оцінками точності є значною.
/
Рис.10. Порівняння показників точності методів J48 та OneR
Бачимо, що ZeroR поруч з результатами має «*», це вказує на те що його результати
порівняно з J48 статистично відрізняються. Але це ми вже знаємо. Ми не бачимо «*»
поруч з результатами алгоритму OneR. Це говорить про те, що, хоча середня точність між
J48 і OneR відрізняється, відмінності не є статистично значущими.
За таких умов, для розв’язку поставленої задачі можна вибрати алгоритм OneR, оскільки він простіший з цих двох алгоритмів. Підсумовуючи результати, можна сказати, що алгоритм OneR досягає точність класифікації на 71.5% (+/- 5.02%), що статистично значно краще, ніж ZeroR при 65.1% (+/- 0.34%).
Завдання 3
/
Рис.11. Дані покупок клієнтів для побудови асоціативних правил в WEKA.
Рис.12. Результат роботи алгоритму Apriori
Правила представлені у форматі антедецент => консеквент (умова-наслідок). Число
пов’язане з антедецентом є абсолютним охопленням набору даних (в даному випадку
4,627). Число поруч з консеквентом це абсолютне число випадків, які відповідають
антецеденту і консеквенту. Число в дужках (в кінці) є підтримкою правила (число
антецедента поділене на число підбраних консеквентів).
Бачимо, що всі представлені правила мають консеквент з «хліба і торта».
• Всі представлені правила вказують на високу загальну суму покупки.
• «печиво» і «заморожені продукти» з'являються у багатьох з представлених правил.
Висновок
У даній лабалаторній роботі ми класифікували вихідні дані методом наївного Байєса, методомJ4.8 (модифікація С4.5), методом ID3 та 1R. Оскільки показник точності нашої моделі – 84.1%, то в первісному розгляді її можна назвати хорошою.
Експериментально підібрали найкращий метод класифікації, використовуючи інтерфейс
Weka Experimenter. Підсумовуючи результати, можна сказати, що алгоритм OneR досягає точність класифікації на 71.5% (+/- 5.02%), що статистично значно краще, ніж ZeroR при 65.1% (+/- 0.34%).
Провели пошук асоціативних правил методом Apriori.