Міністерство освіти і науки, молоді та спорту України
Національний транспортний університет
Факультет транспортних та інформаційних технологій
Кафедра інформаційних систем і технологій
Лабораторна робота №2
з дисципліни
«Комп’ютерні технології статистичної обробки інформації»
на тему
«Побудова вибіркової функції розподілу засобами комп’ютерних технологій»
Київ – 2011
Лабораторна робота №2
Тема: побудова вибіркової функції розподілу засобами комп’ютерних технологій.
Мета: ознайомитися з методикою побудови вибіркових функцій розподілу в Excel з використанням інструменту Гістограма з Пакету аналізу і навчитися побудови гістограм в середовищі MathCAD.
Теоретична довідка
Побудова гістограм.
Гістограма – це графік, що дозволяє візуалізувати відносну частоту влучення даних експериментальної вибірки у визначений числовий інтервал. При її побудові область, обумовлена по розмаху значень даних у вибірці, розбивається на деяке невелике (6-20) число проміжків (як правило, рівних), і потім підраховується відсоток елементів, влучивших до кожного з них. Сама гістограма являє собою стовпчасту діаграму, ширина сегмента якої відповідає величині проміжку, а висота – відносної частості влучення в нього даних. Проводячи паралелі, можна сказати, що в статистиці гістограма є повним аналогом кривої щільності розподілу в теорії імовірностей. Відповідно площа всіх її стовпців повинна бути нормована і дорівнювати 1.
Побудова гістограм вручну – трудомістка і непроста задача. У MathCAD же, завдяки наявності спеціальних функцій, вона вирішується досить легко. Більш того, художній рівень отриманих графіків заслуговує самих високих оцінок. З огляду на практичну важливість статистичних діаграм, розглянемо техніку їх створення.
Гістограми з довільною шириною стовпців.
У MathCAD існують дві функції, що дозволяють зробити обробку вибірки для наступної побудови гістограм. Перша з них, що з'явилася в ранніх версіях програми, функція hist (intvls,x), більш складна у використанні, однак при її допомозі можна будувати гістограми з нерівною шириною сегментів.
Функція hist (intvls,x) – вектор частоти попадання даних в інтервали гістограми:
іntvls – вектор, елементи якого задають сегменти побудови гістограми в порядку зростання a<intvlsi<b;
х – вектор випадкових даних.
Якщо вектор intvls має bin елементів, то і результат hist має стільки ж елементів. Оскільки методика створення гістограм з використанням функції hist досить складна, надамо її по пунктах:
Для початку представимо експериментальні дані у вигляді вектора. На практиці це робиться або безпосереднім їхнім занесенням у таблицю введення (Input Таble), або читанням з текстового або Excel файлу. Щоб одержати передбачуваний результат, скористаємося одним з генераторів випадкових чисел MathCAD. Наприклад, задамо вектор з 1000 нормально розподілених випадкових величин з математичним сподіванням µ=3 і середньоквадратичним відхилення σ = 1 :
Визначимо кількість стовпців майбутньої гістограми. У загальному випадку для цього можна скористатися спеціальною формулою, що обчислює верхню границю числа сегментів для коректної гістограми (утім, в MathCAD це можна зробити і довільним чином):
Далі обчислимо ширину сегментів гістограми. Зазвичай вона визначає відношення розмаху даних у вибірці до числа стовпців гістограми. У MathCAD розмах даних у векторі можна обчислити за допомогою спеціальних матричних функцій max(х) і min(х), що повертають, відповідно, найбільший і найменший його елемент. Щоб обчислити крок сегмента максимально коректно, граничні значення варто округлити. Для цього можна використовувати спеціальні функції floor(a) і ceil(a), що підраховують верхню і нижню границі округлення для числа а:
Використовуючи ранжовану змінну, задаємо вектор границь сегментів розбивки. У загальному випадку його можна визначити довільним чином. Але оскільки на практиці гістограми будуються практично винятково зі стовпцями рівної ширини, то і наш вектор задамо таким чином, щоб різниця між його сусідніми елементами дорівнювала по величині визначеному вище кроку:
За допомогою функції hist обчислюємо вектор, що містить як елемент кількість влучень у відповідний сегмент даних з досліджуваної вибірки. Ширина ж самих стовпців визначається цією функцією як різниця між сусідніми елементами заданого вище вектора t:
Виходячи з математичного змісту гістограми, розраховуємо на основі вектора f вектор частостей влучення даних у відповідні сегменти:
Враховувати величину кроку step у проведеній процедурі необхідно в зв'язку з умовою нормування (до речі, зверніть увагу, що використана формула є аналогом формули щільності імовірності, що застосовується в теорії ймовірностей).
Оскільки стовпці гістограми будуються виходячи з тієї умови, що елементи вектора t повинні відповідати їх серединам, проведемо його перевизначення:
Результат роботи:
Оскільки, стовпці гістограми будуються виходячи з того, що елементи вектора t повинні відповідати їх серединам, проведемо його перевизначення:
Побудова гістограми з рівною шириною стовпців.
Великим недоліком функції hist є те, що для неї необхідно задавати вектор, що містить значення границь сегментів. Функція, що з'явилася в останній версії програми, histogram(bin,x) цю частину роботи бере на себе.
Щоб побудувати гістограму за допомогою функції histogram (bin,x), потрібно визначитися з числом сегментів bin. Їхні границі і середини, які необхідні для розрахунку функція визначить сама.
Результатом роботи функції histogram є матриця розмірності binх2, у першому стовпці якої отримуються значення середин сегментів розбивки, у другому – число елементів вибірки, що потрапили на кожний з інтервалів. У найпростішому випадку, якщо нас цікавить тільки форма розподілу, ми можемо побудувати гістограму, виділивши за допомогою спеціального оператора ([Ctrl]+[6]) вектори відповідних координат з даної матриці. Однак для побудови коректного графіка все ж таки необхідно провести нормування.
Результат роботи:
Побудова вибіркової функції розподілу засобами Excel.
Для побудови вибіркової функції розподілу увесь діапазон зміни випадкової величини X розбивають на ряд інтервалів однакової ширини. Число інтервалів зазвичай вибирають не менше 5 і не більше 15. Потім визначають число значень випадкової величини X, що потрапила в кожен інтервал. Поділивши ці числа на загальну кількість спостережень n, знаходять відносну частоту попадання випадкової величини X в задані інтервали. По знайдених відносних частотах будують гістограми вибіркових функцій розподілу. Якщо відповідні точки відносних частот з'єднати ламаною лінією, то отримана діаграма називатиметься полігоном частот. Кумулятивна крива буде отримана, якщо по осі абсцис відкладати інтервали, а по осі ординат − число або долі елементів сукупності, що мають значення, менше або рівне заданому.
При збільшенні до безкінечності розміру вибірки вибіркові функції розподілу перетворюються на теоретичні: гістограма перетворюється на графік щільності розподілу, а кумулятивна крива − в графік функції розподілу.
У Excel для побудови вибіркових функцій розподілу використовуютьcя спеціальна функція ЧАСТОТА і процедура пакету аналізу Гистограмма.
Функція ЧАСТОТА обчислює частоти появи випадкової величини в інтервалах значень і виводить їх як масив цифр. Функція задається в якості формули масиву.
Частота(масив_даных;масив_карманов).
Результат роботи:
Рис.1. Гістограма для функції Частота.
Процедура Гистограмма використовується для обчислення вибіркових та інтегральних частот попадання даних у вказані інтервали значень. Процедура виводить результати у вигляді таблиці і гістограми.
Рис.2. Діалогове вікно процедури Гистограмма.
Результат роботи:
з порожнім полем Интервал карманов:
Рис.3. Гістограма для процедури Гистограмма з порожнім полем Интервал карманов.
із заповненим полем Интервал карманов:
Рис.4. Гістограма для процедури Гистограмма із заповненим полем Интервал карманов.
Як ми бачимо, гістограма на рис.4 дуже схожа на діаграму на рис.1. Це пояснюється тим, що був введений діапазон карманів. Інакше, кількість і границі інтервалів в процедурі Гистограмма визначалися автоматично, як показано на рис.3.
Висновки: при виконанні лабораторної роботи були отримані навики побудови вибіркових функцій розподілу в MS Excel з використанням функції Частота() і інструмент Гистограмма з Пакета анализа, ознайомилися з методикою побудови гістограм з довільною і рівною шириною стовбців в середовищі MathCAD за допомогою функцій hist і histogram.