Частина тексту файла (без зображень, графіків і формул):
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА”
іНСТИТУТ КОМП’ютерних НАУК та ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ
Кафедра “Системи автоматизованого проектування”
Звіт до лабораторної роботи №6
ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. АВТОМАТИЧНИЙ МОРФОЛОГІЧНИЙ АНАЛІЗ (частина2).
Виконала:
ст. гр. ПРЛм-1
Львів 2008
МЕТА РОБОТИ
Вивчення основ програмування на мові Python.
Ознайомлення з автоматичним морфологічним аналізом в NLTK.
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
Початкова точка та багатопрохідний аналізатор (baselines and backoff).
Продуктивність аналізаторів, які розглядалися в попередній лабораторній роботі є невисокою. Для підвищення продуктивності, приблизно до 90%, необхідно виконати наступні дії. Потрібно встановити більш принципову початкову точку продуктивності ніж в аналізатора по замовчуванню, який є занадто простий та в аналізатора на основі регулярних виразів, який також дає довільні результати. Потрібно забезпечити багато прохідність аналізу, таким чином, що якщо більш спеціалізований аналізатор не може знайти відповідного тега то відбувається повернення до більш загального аналізатора.
Двопрохідний аналізатор (backoff).
У випадку, коли спочатку потрібно використати аналізатор на основі підстановок, а потім, якщо він не зміг встановити відповідного тега, використати аналізатор по замовчуванню необхідно поєднати ці два аналізатори. Для цього потрібно визначити аналізатор по замовчуванню, як аргумент в аналізаторі на основі підстановок і який буде викликати його кожен раз коли не зможе встановити самостійно відповідний тег.
Юніграм аналізатор (unigram).
Tag.Unigram – це клас, який реалізовує простий статистичний алгоритм маркування слів. Кожному слову (tokens) ставиться у відповідність тег, який має найбільшу ймовірність. Наприклад, згідно цього алгоритму тег jj буде поставлений у відповідність до кожного слова frequent (випадку появи) в тексті, оскільки це слово частіше використовується, як прикметник (a frequent word) і рідко як дієслово (I frequent this lecture).
Перед використанням юніграм аналізатора для аналізу тексту потрібно провести його тренування на розміченому корпусі текстів. Аналізатор використовує корпус для визначення тегів, які властиві кожному слову. Тренування проводиться за допомогою метода train(), який має один аргумент – розмічений корпус.
Комбінування аналізаторів.
Одним з методів знаходження балансу між точністю аналізаторів та охопленням лексики це використовувати більш точні алгоритми коли можливо це зробити і повертатись до алгоритмів з більшим охопленням коли це необхідно. Наприклад, можна комбінувати результати роботи біграм аналізатора, юніграм аналізатора та аналізатора по замовчуванню наступним чином:
Визначаємо теги за допомогою біграм аналізатора
Якщо біграм аналізатор не встановив тег для поточного слова – використовується юнігам аналізатор.
Якщо юніграм аналізатор не встановив тег для поточного слова – використовується аналізатор по замовчуванню.
Кожен NLTK аналізатор, крім аналізатора по замовчувані може мати вказівку на використання іншого аналізатора для побудови багато прохідного аналізатора.
Ви не можете залишити коментар. Для цього, будь ласка, увійдіть
або зареєструйтесь.
Ділись своїми роботами та отримуй миттєві бонуси!
Маєш корисні навчальні матеріали, які припадають пилом на твоєму комп'ютері? Розрахункові, лабораторні, практичні чи контрольні роботи — завантажуй їх прямо зараз і одразу отримуй бали на свій рахунок! Заархівуй всі файли в один .zip (до 100 МБ) або завантажуй кожен файл окремо. Внесок у спільноту – це легкий спосіб допомогти іншим та отримати додаткові можливості на сайті. Твої старі роботи можуть приносити тобі нові нагороди!