Методичні вказівки
до лабораторної роботи № 6
«Кластеризація. Базові алгоритми кластеризації. Адаптивний метод кластеризації»
з дисципліни
«Інтелектуальний аналіз даних»
для студентів базового напрямку підготовки по спеціальності
“Комп’ютерні науки” (шифр 0804)
Львів-2012
Лабораторна робота № 6
Кластеризація. Методи кластеризації.
Адаптивний метод кластеризації
1. Теоретична частина
Мета: Ознайомлення з поняттям кластерного аналізу та існуючими алгоритмами кластеризації
Завдання: Дати визначення поняттю кластеризації, розглянути існуючі алгоритми кластеризації, надати детальний опис адаптивному методу кластеризації.
Вступ
Кластеризацією є розбиття множини даних на групи за схожими ознаками. Кластеризація використовується при вирішенні різноманітних задач обробки даних, в тому числі при розпізнаванні образів, машинному навчанні, автоматичної класифікації, виробленні стратегій керування і т. д.
До цих пір не було знайдено якогось універсального алгоритму, який був би ефективним на даних різної природи. В основному використовуються ітеративні методи кластеризації, які базуються на апріорному завданні кількості кластерів і деякому виборі початкового розбиття. При цьому результат їх застосування істотно залежить від правильності оцінки кількості кластерів.
Стійкість кластеризації показує, наскільки різними виходять результуючі розбиття на групи після багаторазового застосування алгоритмів кластеризації для одних і тих же даних. У даній статті наводиться короткий огляд основних методів, що дозволяють оцінити стійкість кластеризації, яка пов'язана з дійсною кількістю кластерів. Описано методи на основі індексів, які порівнюють внутрішні і зовнішні дисперсії кластерів. Також описані алгоритми, що використовують функції стійкості, які визначають відповідність призначених кластерів для вибіркових елементів множини.
Обчислювальна складність відомих алгоритмів дослідження стійкості кластеризації істотно зростає при збільшенні потужності досліджуваної безлічі даних. Також більшість з них недостатньо математично обгрунтовані. У статті розглядається кілька завадостійких алгоритмів, які можуть працювати на множинах довільної структури.
Завдання кластеризації
Кластеризацію можна визначити як процес об'єднання даних у групи за схожими ознаками. Ця задача є однією з фундаментальних в області аналізу даних і Data Mining. Список областей, в яких застосовується кластеризація, дуже широкий: сегментація зображень, прогнозування, аналіз текстів, стиснення даних і багато інших. На сучасному етапі кластеризація часто виступає першим кроком при аналізі даних. Після виділення схожих груп застосовуються інші методи. Для кожної групи будується окрема модель. Рішення задач кластеризації використовуються в таких наукових напрямках, як статистика, розпізнавання образів, машинне навчання, автоматична класифікація, вироблення стратегій управління, моделювання філогенії організмів і інших. Однак варто розрізняти класифікацію та кластеризацію. Класифікацією називається віднесення кожного елемента в певний клас із заздалегідь відомими параметрами, отриманими на етапі навчання. При цьому число класів суворо обмежена. Кластеризація - це розбиття множини даних на кластери. Кластерами будемо називати підмножини, параметри яких заздалегідь невідомі. Кількість кластерів може бути довільним або фіксованим.
Цілі кластеризації можуть бути різними залежно від особливостей конкретної прикладної задачі:
- Визначити структуру безлічі даних, розбивши його на групи схожих об'єктів, спростивши подальшу обробку даних у кожному кластері окремо;
- Скоротити обсяг збережених даних, залишивши по одному найбільш типовому представнику від кожного кластера;
- Виділити нетипові об'єкти, які не підходять до жодного з кластерів.
Основна суть алгоритмів кластеризації полягає в наступному. Є навчальна послідовність (набір даних) {x1, ..., xn} Є X і функція відстані між об'єктами р(х, х'). Потрібно розбити послідовність на непересічні підмножини (які називаються кластерами) так, щоб кожен кластер складався з об'єктів, близьких по метриці р, а об'єкти різних кластерів істотно відрізнялися. Алгоритм кластеризації - це функція а: X → Y, яка будь-якого об'єкта х Є X ставить у відповідність мітку кластера уi Є Y. Безліч міток Y заздалегідь невідомо.
На теперішній момент число методів розбиття груп об'єктів на кластери досить велике — кілька десятків алгоритмів і ще більше їх модифікацій.
У кластеризації виділяють два основних підходи: декомпозиція (неієрархічних), коли кожен об'єкт пов'язаний тільки з однією групою, і кластеризація на основі ієрархій (ієрархічний), коли кожна група більшого розміру складається з груп меншого розміру.
Класичні ієрархічні алгоритми працюють тільки з категорійними атрибутами, коли будується повне дерево вкладених кластерів. Тут поширені агломератівние (об'єднавчі) методи побудови ієрархій кластерів. У них проводиться послідовне об'єднання вихідних об'єктів і відповідне послідовне зменшення числа кластерів. Також існують розділові техніки, коли кластери розділяються. При цьому спочатку передбачається, що в системі тільки один кластер. Ієрархічні алгоритми забезпечують порівняно високу якість кластеризації. Більшість з них мають складність O (n2).
Неієрархічні алгоритми грунтуються на оптимізації деякої цільової функції, що визначає оптимальне в певному сенсі розбиття множини об'єктів на кластери. У цій групі популярні алгоритми сімейства к-середніх (до-теапв), які в якості цільової функції використовують суму квадратів зважених відхилень координат об'єктів від центрів шуканих кластерів. Кластери шукаються сферичної або еліпсоїдної форми.
Рішення задачі кластеризації принципово неоднозначно, оскільки не існує однозначно найкращого критерію якості кластеризації, число кластерів, як правило, невідомо заздалегідь і встановлюється відповідно до деякого суб'єктивним критерієм, а також результат кластеризації в багатьох алгоритмах істотно залежить від метрики, вибір якої найчастіше суб'єктивний і визначається експертом.
Таким чином, не існує єдиного універсального алгоритму кластеризації. При використанні будь-якого алгоритму важливо розуміти його достоїнства і недоліки, враховувати природу даних, з якими він краще працює і здатність до масштабованості.
Формальна постановка задачі
Дано - набір даних з наступними властивостями
кожен екземпляр даних виражається чітким числовим значенням;
клас для кожного конкретного екземпляра даних невідомий.
Знайти:
спосіб порівняння даних між собою (міру подібності);
спосіб кластеризації;
розбиття даних по кластерам.
Формально задача кластеризації описується таким чином.
Дано безліч об'єктів даних I, кожен з яких представлений набором атрибутів. Потрібно побудувати безліч кластерів С і відображення F безлічі I на безліч С, тобто F: I → С. Відображення F задає модель даних, яка є рішенням задачі. Якість рішення задачі визначається кількістю вірно класифікованих об'єктів даних. Безліч I визначимо наступним чином:
I = {i1, i2, …, ij, …, in}, (1.1)
де ij - досліджуваний об'єкт.
Прикладом такого безлічі може бути набір даних про іриси, з якими в середині 30-х рр.. минулого сторіччя працював відомий статист Р. А. Фішер (ці дані часто називають іриси Фішера). Він розглянув три класи ірисів Iris setosa, Iris versicolor та Iris virginica. Для кожного з них було представлено по 50 екземплярів з різними значеннями чотирьох параметрів: довжина і ширина чашелістніка, довжина і ширина пелюстки. У табл. 1 представлені дані по п'яти примірників для кожного класу.
Таблиця 1.1
№
Довжина чашолистків
Ширина чашолистків
Довжина пелюсток
Ширина пелюстки
Класс
1
5,1
3,5
1,4
0,2
Iris setosa
2
4,9
3,0
1,4
0,2
Iris setosa
3
4,7
3,2
1,3
0,2
Iris setosa
4
4,6
3,1
1,5
0,2
Iris setosa
5
5,0
3,6
1,4
0,2
Iris setosa
51
7,0
3,2
4,7
1,4
Iris versicolor
52
6,4
3,2
4,5
1,5
Iris versicolor
53
6,9
3,1
4,9
1,5
Iris versicolor
54
5,5
2,3
4,0
1,3
Iris versicolor
55
6,5
2,8
4,6
1,5
Iris versicolor
101
6,3
3,3
6,0
2,5
Iris virginica
102
5,8
2,7
5,1
1,9
Iris virginica
103
7,1
3,0
5,9
2,1
Iris virginica
104
6,3
2,9
5,6
1,8
Iris virginica
105
6,5
3,0
5,8
2,2
Iris virginica
Кожен з об'єктів характеризується набором параметрів:
ij = {x1,xi2, …, xj, …, xn} (1.2)
У прикладі з ірисами, як уже зазначалося, такими параметрами є довжина І ширина чашолистника, довжина І ширина пелюстки.
Кожна змінна хh, може приймати значення з деякої множини:
xh = {v1h, v2h,…}. (1.3)
У даному прикладі значеннями є дійсні числа.
Завдання кластеризації полягає в побудові безлічі:
С= {с1,с2, ... ,сk, ... ,cg) (1.4)
Тут ск— кластер, що містить схожі один на одного об'єкти з безлічі:
Ck = {ij, ip | ij Є I, ip Є I и d(ij, ip) < δ (1.5)
де δ - величина, що визначає міру близькості для включення об'єктів в один кластер; d (ij, ip) - міра близькості між об'єктами, звана відстанню.
Ненегативне значення d (ij, ip) називається відстанню між елементами ij і ip якщо виконуються наступні умови:
d(ij, ip) > 0, для всіх ij, iр. (1.6)
d(ij, ip) = 0, тоді і тільки тоді, коли ij = iр. (1.7)
d(ij, ip)) = d(ip, ii) (1.8)
d(ij, ip) < d(ij, ir) + d(ir, ip) (1.9)
Якщо відстань d (ii, ip) менше деякого значення про, то говорять, що елементи близькі і поміщаються в один кластер. В іншому випадку говорять, що елементи відмінні один від одного і їх поміщають в різні кластери.
Більшість популярних алгоритмів, що вирішують завдання кластеризації, використовують як формат вхідних даних матрицю відмінності D. Рядки і стовпці матриці відповідають елементам множини I Елементами матриці є значення d (ii, ip) у рядку j і стовпці p. Очевидно, що на головній діагоналі значення будуть дорівнюють нулю:
(1.10)
Більшість алгоритмів працюють з симетричними матрицями. Якщо матриця несиметрична, то її можна привести до симетричного увазі шляхом наступного перетворення:
(D + Dm) / 2 (1.11)
4. Міри близькості, засновані на відстанях, використовувані в алгоритмах кластеризації
Відстані між об'єктами припускають їх представлення у вигляді точок m-мірного простору Rm. У цьому випадку можуть бути використані різні підходи до обчислення відстаней. Розглянуті нижче міри визначають відстані між двома точками, що належать простору вхідних змінних. Використовуються такі позначення:
— безліч даних, що є підмножиною m-мірного речового простору;
— елементи множини даних;
— середнє значення точок даних;
— коваріаційна матриця {т x т).
Отже, наведемо найбільш відомі міри близькості.
Евклідова відстань. Іноді може виникнути бажання звести в квадрат стандартне евклідова відстань, щоб надати більші ваги більш віддаленим один від одного об'єктам. Це відстань обчислюється наступним чином:
(1.12)
Відстань по Хеммінгу. Це відстань є просто середнім різниць по координатах. У більшості випадків дана міра відстані приводить до таких же результатів, як і для звичайного відстані Евкліда, проте для неї вплив окремих великих різниць (викидів) зменшується (оскільки вони не зводяться в квадрат). Відстань по Хеммінг обчислюється за формулою:
(1.13)
Відстань Чебишева. Це відстань може виявитися корисним, коли бажають визначити два об'єкти як "різні", якщо вони розрізняються по якій-небудь одній координаті (яким одним виміром). Відстань Чебишева обчислюється за формулою:
(1.14)
Відстань Махаланобіса долає цей недолік, але дана міра відстані погано працює, якщо коваріаційна матриця вираховувати »на всьому безлічі вхідних даних. У той же час, будучи зосередженою на конкретному класі (групі даних), дана міра відстані показує гарні результати:
(1.15)
Пікова відстань припускає незалежність між випадковими змінними, що говорить про відстані в ортогональному просторі. Але в практичних додатках ці змінні не є незалежними:
(1.16)
Будь-яку з наведених заходів відстані можна вибирати з упевненістю лише в тоді, якщо є інформація про характер даних, що піддаються кластеризації. Так, наприклад, пікове відстань припускає незалежність між випадковими змінними, що говорить про відстані в ортогональному просторі. Але в практичних додатках ці змінні не є незалежними.
Представлення результатів
Результатом кластерного аналізу є набір кластерів, що містять елементи вихідної безлічі. Кластерна модель повинна описувати як самі кластери, так і належність кожного об'єкта до одного з них.
Для невеликого числа об'єктів, що характеризуються двома змінними, результати кластерного аналізу зображують графічно. Елементи представляються точками, кластери розділяються прямими, які описуються лінійними функціями. Для прикладу з даними з табл. 1.1. результат кластеризації можна представити діаграмою, зображеною на рис. 1.2.
Рис.1.2. Розділення ірисів на кластери лініями
Якщо кластери можна розділити прямими, то малюються ламані лінії, які описуються нелінійними функціями.
У разі якщо елемент може належати кільком кластерам, то можна використовувати Віденські діаграми, наприклад, як на мал. 1.3.
Рис.1.3. Розділення ірисів на кластери з використанням Віденських діаграм
Деякі алгоритми не просто відносять елемент до одного з кластерів, а визначають ймовірність його приналежності. У цьому випадку зручніше представляти результат їх роботи у вигляді таблиці. У ній рядки відповідають елементам вихідного безлічі, стовпці - кластерам, а в осередках вказується ймовірність приналежності елемента до кластера.
Ряд алгоритмів кластеризації будують ієрархічні структури кластерів. У таких структурах самий верхній рівень відповідає всьому безлічі об'єктів, тобто одному-єдиному кластеру. На наступному рівні він ділиться на кілька подкластера. Кожен з них ділиться ще на декілька і т. д. Побудова такої ієрархії може відбуватися до тих пір, поки кластери не будуть відповідати окремим об'єктам рис.1.4.. Такі діаграми називаються дендрограмма (dendrograms). Цей термін підкреслює деревоподібну структуру діаграм (від грец. dendron - дерево).
Рис.1.4. Дендрограма побудована відповідно до таблиці
Класифікація алгоритмів кластеризації
При виконанні кластеризації важливо, скільки у результаті має бути побудовано кластерів. Передбачається, що кластеризація повинна виявити природні локальні згущення об'єктів. Тому число кластерів є параметром, часто істотно ускладнює вид алгоритму, якщо передбачається невідомим, та суттєво впливають на якість результату, якщо воно відоме.
Проблема вибору числа кластерів вельми нетривіальна. Досить сказати, що для отримання задовільного теоретичного рішення часто потрібно зробити вельми сильні припущення про властивості деякого наперед заданого сімейства розподілів. Але про які припущеннях може йти мова, коли, особливо на початку дослідження, про даних практично нічого невідомо? Тому алгоритми кластеризації зазвичай будуються як деякий спосіб перебору числа кластерів і визначення його оптимального значення в процесі перебору.
Число методів розбиття множини на кластери досить велике. Всі їх можна підрозділити на ієрархічні та неієрархічні.
У неієрархічних алгоритмах характер їх роботи і умова зупинки необхідно заздалегідь регламентувати часто досить великим числом параметрів, що іноді важко, особливо на початковому етапі вивчення матеріалу. Але в таких алгоритмах досягається більша гнучкість у варіюванні кластеризації та зазвичай визначається число кластерів.
З іншого боку, коли об'єкти характеризуються великим числом ознак (параметрів), то набуває важливого значення задача угруповання ознак. Вихідна інформація міститься в квадратної матриці зв'язків ознак, зокрема в кореляційної матриці. Основою успішного вирішення завдання угруповання є неформальна гіпотеза про невеликому числі прихованих чинників, які визначають структуру взаємних зв'язків між ознаками.
В ієрархічних алгоритмах фактично відмовляються від визначення числа кластерів, будуючи повне дерево вкладених кластерів (Дендрограмма). Число кластерів визначається з припущень, в принципі, не відносяться до роботи алгоритмів, наприклад по динаміці зміни порогу розщеплення (злиття) кластерів. Труднощі таких алгоритмів добре вивчені: вибір заходів близькості кластерів, проблема інверсій індексації в Дендрограмма, негнучкість ієрархічних класифікацій, яка іноді дуже небажана. Тим не менш, уявлення кластеризації у вигляді дендрограмми дозволяє отримати найбільш повне уявлення про структуру кластерів.
Ієрархічні алгоритми пов'язані з побудовою дендрограмм і діляться:
на агломеративні, що характеризуються послідовним об'єднанням вихідних елементів та відповідним зменшенням числа кластерів (побудова кластерів знизу вгору);
на дивізимні (подільні), в яких число кластерів зростає, починаючи з одного, в результаті чого утворюється послідовність розщеплюють груп (побудова кластерів зверху вниз).
Адаптивні методи кластеризації
Вибір найкращого рішення і якість кластеризації
У попередньому розділі було розглянуто різні методи кластеризації. Основним результатом будь-якого з них є набір кластерів. Для того щоб алгоритм кластеризації побудував цей набір, необхідно знати кількість кластерів. Змінюючи його, можна отримати безліч рівноцінних (з формальної точки зору) результатів. Тим не менш мається на увазі, що існує невелика кількість практично корисних рішень задачі кластеризації (найчастіше одне) для заданої множини даних. Тому, коли про кількість кластерів немає інформації (це найпоширеніша ситуація), виникає проблема вибору найкращого розбиття, а це нетривіальне завдання. Полегшити її рішення можна, додавши в алгоритм кластеризації деякий адаптивний механізм вибору оптимального рішення серед безлічі можливих. Вибір оптимального рішення будемо засновувати на понятті якості кластеризації. Якістю кластеризації назвемо ступінь наближення результату кластеризації до ідеального рішенням. Оскільки ідеальне рішення задачі кластеризації невідомо, то оцінити якість можна двома способами-експертним і формальним. Експертна вибір найкращого рішення задачі полягає в оцінці рішення фахівцями в даній предметній області. Але експертна оцінка найчастіше об'єктивно неможлива через велику обсягу і складності даних. Тому важливу роль відіграють формальні критерії оцінки якості кластеризації.
Використання формальних критеріїв якості в адаптивній кластеризації
Формальні критерії оцінюють якість кластеризації по деякому показником, обчисленому на підставі результатів кластеризації. Найкращим в термінах обраного критерію є рішення, для якого значення критерію досягає екстремального значення.
Адаптивна складова добре поєднується з неієрархічних алгоритмами, особливо з алгоритмами нечіткої кластеризації. Алгоритми неієрархічних кластеризації, як правило, реалізують ітераційну процедуру наближення до вирішення задачі.
В результаті рішення основним результатом є матриця приналежності - на її основі виходить розбиття на кластери. Іншим важливим результатом є безліч центрів кластерів - векторів, приналежність яких відповідним кластерам максимальна. Таким чином, для побудови критерію необхідно використовувати один або обидва цих результату. Побудувавши критерій (або систему критеріїв), можна буде застосовувати адаптивний механізм кластеризації.
Рис.1.5. Узагальнена схема процедури адаптивної кластеризації
Ключовим елементом в адаптивній кластеризації є вибір критерію, за яким буде оцінюватися якість кластеризації. Наведемо деякі з них.
Показники чіткості
Показники чіткості вважають максимуму при найбільш чітко розбитті.
Коефіцієнт розбиття:
, . (1.13)
Індекс чіткості:
, (1.14)
Ентропійні критерії
Ентропія відома як чисельне вираження впорядкованості системи. Ентропія розбиття досягає мінімуму при найбільшій впорядкованості в системі (у разі чіткого розбиття ентропія дорівнює нулю). Тобто чим більше ступінь належності елемента одному кластеру (і менше ступінь приналежності всім іншим кластерам), тим менше значення ентропії і тим більш якісно виконана кластеризація.
Ентропія розбиття:
, . (1.15)
Аналізуючи формулу і вчить ивая властивості функції приналежності, очевидно, що в загальному випадку розбиття на меншу кількість кластерів дасть менше значення ентропії. Щоб врахувати цей факт, даний критерій видозмінюють для того, щоб ввести в ентропію розбиття кількість кластерів.
Нормалізована ентропія:
, . (1.16)
Модифікована ентропія:
, . (1.17)
Інші критерії
Показник компактності і ізольованості:
. (1.18)
Менші значення цього індикатора відповідають більш компактним, добре віддільні кластерам
Індекс ефективності.
Максимум цього критерію дасть оптимальну кількість кластерів. Критерій будується з двох складових частин:
• межкластерние відмінності (великі при оптимальному К):
, (1.19)
• внутрекластерние відмінності (малі при оптимальному К):
. (1.20)
Комбінуючи ці частини, отримуємо критерій:
. (1.21)
Тут х - середнє арифметичне всіх вхідних векторів.
Приклад адаптивної кластеризації
Для ілюстрації використання адаптивної кластеризації наведемо приклад. Вихідними даними є безліч Iris dataset-класичний приклад, використовуваний для перевірки методів аналізу даних. Iris dataset складається з 3 класів по 50 елементів в кожному. Кожен з класів - це деякий вид ірису. Один клас лінійно відділимо від двох інших. Інші два класи лінійно невіддільні одне від одного. Кожен вхідний вектор має чотири атрибуту:
довжина чашолистки (в сантиметрах);
ширина чашолистків (в сантиметрах);
довжина пелюстки (в сантиметрах);
ширина пелюстки (в сантиметрах).
Ілюстрація чотирьох проекцій даних в тривимірний простір представлена на рис. 1.6.
Рис.1.6. Чотири проекції даних в тривимірному просторі
В якості критеріїв якості виберемо два з наведених критеріїв: модифіковану ентропію і індекс ефективності. За допомогою адаптивної процедури кластеризації будемо здійснювати пошук оптимальної кількості кластерів. Діапазон пошуку вибраний з загальних рекомендацій, які говорять про те, що мінімальна кількість кластерів дорівнює двом, а максимальне - близько квадратного кореня з потужності вхідного безлічі. Будемо використовувати евклідова відстань. На рис. 1.7 показані залежності значень критеріїв від кількості кластерів. Червоною крапкою показані екстремальні значення критеріїв.
З наведених малюнків видно, що критерії вказують на різне значення кластерів. У даному випадку індекс ефективності показав кращі результати, зумівши розрізнити всі три кластери, які є у вхідних даних, у тому числі і два лінійно нероздільних кластера Проте в інших завданнях використання цих критеріїв може дати інший результат.
Рис. 1.7. Залежність значень критеріїв від кількості кластерів. індекс ефективності
Підсумок
З матеріалу, викладеного в даній главі, можна зробити наступні висновки.
Завдання кластеризації полягає в поділі досліджуваної безлічі об'єктів на групи схожих об'єктів, званих кластерами.
Для визначення "схожості" об'єктів вводиться міра близькості, звана відстанню. Існують різні способи обчислення відстаней: евклідів, Манхеттенського, Чебишева та ін.
Результати кластеризації можуть бути представлені різними способами. Одним з найбільш популярних є Дендрограмма-відображення послідовного процесу кластеризації.
Базові методи кластеризації діляться на ієрархічні та неієрархічні. Перші будують дендрограмми або знизу вгору (агломератівние), або зверху вниз (дівізімние).
Найбільш популярний з неієрархічних алгоритмів - алгоритм ^-середніх і його різновиди. Ідея методу полягає у визначенні центрів до кластерів та віднесення до кожного кластеру об'єктів, найбільш близько знаходяться до цих центрів.
Застосування адаптивної кластеризації може допомогти більш ефективно вирішувати задачу кластеризації та більш зважено підходити до оцінки результату. Тим не менше вибір критерію оцінки якості може виявитися критичним для вирішення задачі.
2. Порядок виконання роботи
2.1Ознайомитися з теоретичною частиною.
2.2Отримати варіант завдання.
2.3Оформити звіт за результатами виконаної роботи.
Вимоги до звіту
Оформити звіт для захисту лабораторної роботи за зразком:
назва роботи
мета роботи
порядок роботи
короткі теоретичні відомості
аналіз отриманих результатів та висновок.
Оформлення звіту
Звіт повинен відповідати вимогам перерахованим в розділі 3 – Вимоги до звіту. Звіт оформляється на листах формату А4 (також додається електронний варіант). Титульна сторінка повинна містити: назву предмету, такий заголовок:
Звіт
до лабораторної роботи № 6
«Кластеризація. Базові алгоритми кластеризації.
Адаптивний метод кластеризації»
ПІБ, номер групи студента і дату виконання лабораторної роботи. Звіт подається викладачу для перевірки на занятті, які є наступними за даною лабораторною роботою.
Рекомендована література
А. А. Барсегян, М. С. Куприянов, В.В. Степаненко, И. И. Холод «Технологии анализа данных: Data mining, Visual mining, Text mining, OLAP» 2-е издание, Санкт-Петербург -2007 ;
Олдендерфер М. С., Блэшфилд Р. К. « Кластерный анализ / Факторный, дискриминантный и кластерный аналіз »: пер. с англ.; Под. ред. И. С. Енюкова. — М.: Финансы и статистика, 1989—215 с
А.Котов, Н.Красильников «Кластеризация данных», 2006 ;
Шуметов В. Г. Шуметова Л. В. «Кластерный анализ: подход с применением ЭВМ.» — Орел: ОрелГТУ, 2000. — 118 с.
Загоруйко Н. Г. «Прикладные методы анализа данных и знаний.» — Новосибирск: ИМ СО РАН, 1999.
Журавлев Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. — М.: Фазис, 2006.
Олдендерфер М. С., Блэшфилд Р. К. «Кластерный анализ / Факторный, дискриминантный и кластерный анализ» : пер. с англ.; Под. ред. И. С. Енюкова,1989—215 с.
Дюран Б., Оделл П. «Кластерный анализ.» — М.: Статистика, 1977. —128с.
Жамбю М. « Иерархический кластер-анализ и соответствия.» 1988. —345с.
«Классификация и кластеризация» Под ред. Дж. Вэн Райзина. М.: Мир, 1980. 390 с.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск:ИМ СО РАН, 1999.
Загоруйко Н. Г., Ёлкина В. Н., Лбов Г. С. Алгоритмы обнаружения эмпирических закономерностей. Новосибирск: Наука, 1985.
Кулаичев А. П. Методы и средства комплексного анализа данных. М: ИНФРА-М, 2006.
Лагутин М. Б. Наглядная математическая статистика. М.: П-центр, 2003.
Контрольні питання
Дати визначення кластеризації?
Де використовується кластеризація?
Яка різниця між кластеризацією та класифікацією?
Які є два підходи до кластеризації?
Як називається універсальний алгоритм кластеризації?
Які є міри близькості?
Що є результатом кластеризації?
Які показники чітковсті ви знаєте?
Які ентропійні критерії використовуються при кластеризації?
За якими ознаками визначається схожість об'єктів?
Навчальне видання
“ Інтелектуальний аналіз даних ”
Методичні вказівки до лабораторної роботи № 6 “Кластеризація. Базові алгоритми кластеризації. Адаптивний метод кластеризації ” з дисципліни “Інформаційний аналіз даних ” для студентів спеціальності 0804 “Комп’ютерні науки”
Укладач:
доц. Ковівчак Ярослав Васильович
Комп’ютерний набір, верстку та редагування
здійснили ст. гр. КН-32, каф. АСУ, Сподарик В., Вовчук Д., Жавко І.