Інформаційні технології пошуку

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Не вказано
Факультет:
КН
Кафедра:
Автоматизовані Системи Управління

Інформація про роботу

Рік:
2011
Тип роботи:
Курсова робота
Предмет:
Інші

Частина тексту файла (без зображень, графіків і формул):

МІНІСТЕРСТВО ОСВІТИ ТА НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»  Кафедра: Автоматизовані системи управління КУРСОВА РОБОТА з курсу «МЗКІТ» на тему: Інформаційні технології пошуку Зміст Інформаційний пошук Вступ……………………………………………………………………………………………..1 1.Завдання інформаційного пошуку…………………………………………………..….2 2.Технології інформаційного пошуку…………………………………………………….3 Інформаційний пошук за допомогою векторно-просторового представлення……...5 Імовірнісний пошук……………………………………………………………………....5 Пошук з використанням мовних моделей……………………………………………....6 Алгоритми прийняття рішень……………………………………………………………6 Розширений Булевий пошук……………………………………………………………..6 Пошук з прихованим семантичним індексуванням……………………………………7 Пошук з використанням нейро-мереж………………………………………………….7 Пошук з використанням алгоритмів розвитку………………………………………….7 Пошук з використанням нечітких множин……………….…………………………….7 3.Інтелектуальні агенти………………………………………...8 1.Інтелектуальні агенти в штучному інтелекті………………………………………………9 2. Види агентів…………………………………………………………………………………10 агенти з простою поведінкою…………………………………………………………...10 агенти з поведінкою, заснованою на моделі…………………………………………....11 цілеспрямовані агенти……………………………………………………………………11 практичні агенти………………………………………………………………………….11 агенти, що навчаються…………………………………………………………………...11 4.Використання інтелектуальних агентів для пошуку інформації в Інтернеті………………………………………………………..…….12 1. Загальна структура інформаційного помічника…………….………..……………………...13 2. Модель користувача…………………………………………..……………………………….15 3. Модель навколишнього середовища………………………… ……………………………...17 5.Література…………………………………………………………….20 Вступ Інформаційний пошук (І П) (англ. Information retrieval) — наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет. Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. Інформаційний пошук-це процес пошуку в великій колекції певного неструктурованого матеріалу що задовольняє інформаційний запит. Автоматичні системи інформаційного пошуку використовують для зменшення так званого «інформаційного перевантаження». Багато університетів та публічних бібліотек використовують системи інформаційного пошуку для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем інформаційного пошуку можна назвати пошукові системи в Інтернеті. Об’єктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація. З інформаційним пошуком змикаються проблеми: розсилки інформації (information routing); сортування інформації (information filtering); упорядкування (класифікація) інформації (information categorization); відбір інформації (information extraction). Для інформаційного пошуку розробляють: алгоритми інформаційного пошуку (retrieval algorithms); підходи інформаційного пошуку(retrieval approaches); стратегії інформаційного пошуку (retrieval strategies). Для його здійснення створюють: методи інформаційного пошуку (retrieval utilities); засоби інформаційного пошуку (information retrieval systems); комп’ютерні пошукові програми (search engines). До проблем інформаційного пошуку належать питання: представлення даних, інформації, знань (data, information, knowledge); представлення інформації в сучасних інформаційних сховищах (representation of information); багатомовний інформаційний пошук (cross-language information retrieval); одночасний інформаційний пошук (parallel information retrieval); розподілений інформаційний пошук (distributed information retrieval); суспільний інформаційний пошук (social information retrieval) Напрям інформаційний пошук відносять до проблем: застосовної (прикладної) лінгвістики (applied linguistics); обробки природної мови (natural language processing); 1.Завдання інформаційного пошуку Завданням інформаційного пошуку є знаходження відповідних (до пошукового запиту) інформаційних об’єктів, або документів серед доступного для пошуку матеріалу. Завдання для інформаційного пошуку задається у вигляді інформаційного запиту (query), який може містити слова, фрази чи речення або комбінацію їх. Переважна більшість пошукових систем орієнтована на роботу з пошуковими термінами — словами або словосполученнями, які пошукова система розпізнає як одне ціле. Для здійснення інформаційного пошуку потрібно мати збірку інформаційних об’єктів (бібліотека, комп’ютерні файли) і систему (алгоритм або програму) яка здійснює пошук. Для здійснення інформаційного пошуку користувач (людина або інформаційна система) формує інформаційний запит (information query). Результатом пошукової роботи є список документів який укладається згідно з певним принципом. Такий список називають впорядкованим (ranked list, ranked results). Пошукова система переглядає всі доступні інформаційні одиниці (документи) зі збірки і відбирає документи відповідні до інформаційного запиту. Оскільки реальні пошукові системи знаходять не всі відповідні документи, говорять про точність пошукових систем (system accuracy). Результатом роботи пошукової системи є список відібраних документів (retrieved documents list), серед яких є відповідні до запиту документи (relevant documents). Для ідеальної пошукової системи список відібраних документів та відповідних документів повинні збігатися. В реальних пошукових системах в списках відібраних документів знаходяться і невідповідні до запиту документи. Тому говорять про ефективність пошукових систем. Ефективність пошукових систем оцінюється двома параметрами: пошукова відповідність (precision) та пошукова якість (recall). Пошукова відповідність визначає частку відповідних документів серед відібраних на запит. Пошукова відповідність визначає якість отриманого результату інформаційного пошуку. Пошукова якість визначає частку отриманих системою відповідних до запиту документів серед загального числа відповідних до запиту документів у збірці. Загальне число відповідних до запиту документів завжди є невідомим і може бути встановлене лише при повному перегляді збірки людиною. Крім того роботу пошукових систем оцінюють швидкодією — часом, за який отримують список відповідних до запиту документів. Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. 2.Технології інформаційного пошуку Технології інформаційного пошуку визначають ступінь подібності документів, що розглядаються, до пошукового запиту. Ступінь подібності визначається згідно з робочою гіпотезою: чим частіше пошуковий термін зустрічається в документі, тим «відповіднішим» є цей документ до пошукового запиту. Технології інформаційного пошуку розробляються не тільки для визначення відповідності, але і для вирішення проблем, які пов’язані з неоднозначністю мови – один і той самий термін може позначати різні концепти (ключ в механіці означає зовсім не те, що в шифруванні), один і той же концепт може позначатись різними термінами (обласний центр Львівської області має назву Львів і Місто Лева). Технологія інформаційного пошуку це алгоритм, який, переглядаючи набір документів (Д1, ..., Дn), встановлює їх відповідність до пошукового запиту (ПЗ). Оскільки пошуковий термін зустрічається в документах різну кількість раз, можна говорити про різну ступінь відповідності до пошукового запиту. Цей алгоритм обчислює коефіцієнт відповідності (similarity coefficient) (КВ) для кожного документу КВ(ПЗ, Дi), де 1 ≤ i ≤ n. Text mining-процес отримання високоякісної інформації з тексту на природній мові. Як правило,для цього застосовується статистичне навчання  на основі шаблонів: вхідний текст поділяється за допомогою шаблонів, потім проводиться обробка отриманих даних. Існують такі технології інформаційного пошуку: - з використанням векторно-просторового представлення (vector space model); пошук імовірності появи пошукового терміну в документі (probabilistic retrieval); - з побудовою мовної моделі для кожного документу (language models); - з побудовою мережі припущень, яка використовується для встановлення відповідності документу до пошукового запиту (inference network); - з Булевим індексуванням, коли кожному пошуковому терміну присвоюється своя «вага», що потім враховується при побудові впорядкованих списків документів (Boolean indexing); - з використанням не проявленого семантичного індексування (latent semantic indexing); - з побудовою нейромереж (neural networks); - з використанням продуктивних алгоритмів, коли початковий пошуковий запит «еволюційно» видозмінюється (genetic algorithms); - з використанням нечітких множин, коли документу ставиться у відповідність нечітка множина (fuzzy set retrieval). 1.Інформаційний пошук за допомогою векторно-просторового представлення Пошуковий запит та документи представляються у вигляді просторових векторів Пошукова система відбирає документи, просторові вектори яких подібні до просторового вектора пошукового запиту. В основі векторно-просторового представлення документу лежить припущення, що зміст документу передається словами, що в ньому знаходяться. Просторово-векторне представлення будується для пошукового запиту і для кожного документу. Просторово-векторне представлення документу – це вектор у n-мірному просторі. N-мірний простір це простір, кожний вимір якого відповідає пошуковому терміну. Координати кінця вектора чисельно визначаються тим, скільки разів пошуковий термін зустрічається в документі. Тобто кожний компонент вектора відповідає числу появи відповідного терміну в документі. Пошукова система обчислює коефіцієнт відповідності (КВ) просторово векторного представлення документу до просторово-векторного представлення пошукового запиту. Фактично пошукова система обчислює кут між цими векторами. Найбільш відповідними є документи, просторово-векторне представлення яких спрямоване туди ж куди і в представлення пошукового запиту. 2.Імовірнісний пошук Коефіцієнт відповідності документу пошуковому запитові визначається на основі імовірності того, що документ є відповідним пошуковому запитові. Присутність чи відсутність пошукового терміну в документі використовується для визначення імовірності того, що документ відповідає інформаційному запитові. Визначення імовірності базується на попередніх статистичних даних, про те, наскільки імовірно, що документ який містить пошуковий термін A, відповідатиме пошуковому запитові, що містить термін A. Припускаючи, що пошукові терміни в пошуковому запиті є незалежні, можна обчислювати таку імовірність для кожного пошукового терміну з пошукового запиту. Загальна імовірність відповідності документу обчислюється як добуток ймовірностей відповідності для кожного терміну. Незалежність пошукових термінів в пошуковому запиті рідко спостерігається в дійсності, тому обчислення сумарної відповідності значно ускладнюється, що збільшує час інформаційного пошуку. Крім того, необхідно мати попередні дані про входження термінів у відповідні до запиту документи а також і у невідповідні до запиту документи. 3.Пошук з використанням мовних моделей Мовні моделі використовуються для передбачення появи того чи іншого слова у тексті. В інформаційному пошуку використовуються статистичні мовні моделі для передбачення чи з’явиться потрібне слово (пошуковий термін) в документі. Для кожного документу зі збірки обчислюється імовірність появи в документі пошукових термінів. Згідно з цим документом упорядковуються у пошуковому списку. Ще один підхід пропонує побудову імовірнісної моделі пошукового запиту. Тобто будується імовірнісна модель появи тих чи інших пошукових термінів у запиті Далі будується імовірнісна модель запиту як сукупності незалежних подій, де кожна подія – це поява того чи іншого терміну у пошуковому запиті. В цій моделі ми можемо врахувати навіть імовірності не появи певних термінів. 4.Алгоритми прийняття рішень Алгоритми прийняття рішень використовуються для визначення імовірності того, що документ буде відповідним до пошукового запиту. Алгоритми прийняття рішень застосовуються як доповнення до імовірнісного пошуку, для отримання додаткових доказів того, що документ може відповідати пошуковому запиту. Метод основано на виокристанні відомих залежностей для побудови невідомих. Це дозволяє кардинально знизити обсяг обчислень, які необхідні для визначення імовірності тої чи іншої події. 5.Розширений Булевий пошук Звичайний Булевий пошук не має нічого спільного з ступінню відповідності документу до пошукового запиту, і, відповідно, з упорядкуванням документів згідно з цією відповідністю. Документи або задовольняють інформаційний запит, або ні. Ті документи, що задовольняють булевий запит попадають у список по черзі. Ідея розширеного Булевого пошуку полягає у створенні можливостей для визначення ступеня відповідності документів пошуковому запитові. Це досягається з допомогою присвоєння ваги пошуковим термінам. Вага термінів враховується при побудові списку відповідності документів до інформаційного запиту. 6.Пошук з прихованим семантичним індексуванням Поява термінів в документі представляється за допомогою матриці термін-документ. Матриця приводиться за допомогою розкладу за виродженими матрицями для того, щоб відділити «шум», так, що два семантично спільні документи знаходяться поруч в багатомірному просторі. 7.Пошук з використанням нейро-мереж Вузли нейронної мережі «активуються» пошуковим запитом. Сила кожного зв’язку нейронної мережі передається документу і використовується для обчислення коефіцієнта відповідності документа до пошуковго запиту. Для цього зв’язкам присвоюється вага згідно з наперед визначеною відповідністю чи невідповідністю документів. 8.Пошук з використанням алгоритмів розвитку Шляхом еволюції можна змінити початковий пошуковий запит. Початковий запит використовується з рівноправними термінами, або з термінами, що мають різну вагу. Згенерований пошуковий запит залишається, якщо він охоплює відомі відповідні до початкового запиту документи, якщо ж ні – відкидається. 9.Пошук з використанням нечітких множин Документ перетворюється в нечітку множину (це множина, що містить не тільки сам елемент але і число, що показує ступінь приналежності елемента до множини). Далі для кожного документу з проведеного попередньо Булевого пошуку додається інформація отримана з операцій об’єднання, перетину, комплементарності нечітких множин, яка говорить про ступінь відповідності кожного документу до пошукового запиту. Ступінь відповідності використовується як коефіцієнт відповідності. 3.Інтелектуальний агент У комп’ютерній науці, інтелектуальний агент — це програма, що самостійно виконує завдання, указане користувачем комп'ютера, протягом тривалих проміжків часу. Інтелектуальні агенти використовуються для сприяння операторові або для збирання інформації. Одним із прикладів завдань, виконуваних агентами, може служити завдання постійного пошуку й збору необхідної інформації в Інтернеті. Комп’ютерні віруси, боти, пошукові роботи — усе це також можна віднести до інтелектуальних агентів. Хоча такі агенти мають строгий алгоритм, «інтелектуальність» у цьому контексті розуміється як здатність пристосовуватися й навчатися. Сьогодні перед користувачем постає задача шукати потрібну інформацію в невідомому і постійно наростаючому віртуальному інформаційному просторі. Якщо потрібно розв’язати будь-яку складну, нетривіальну задачу, що пов’язана з використанням цілком екзотичних математичних методів, про які користувач має слабке уявлення, або ж вияснити буль-який маловідомий історичний факт (наприклад походження батьків відомої людини), або ж знайти та використати деяке програмне забезпечення, тоді подальші дії повинні проходити за таким сценарієм (звичайно, якщо розвиток мережі піде в даному напрямку). Користувач активізує програму-агента на своєму комп’ютері і в достатньо вільній формі описує задачу. Потім агент з’єднується з іншими агентами, щоб вияснити, що їм відомо про розв’язання поставленої задачі. Якщо знаходиться агент, якому відоме вирішення, тоді агент користувача відфільтровує знайдену інформацію з метою ідентифікації потрібних розв’язків і відсіює непотрібні дані. Якщо розв’язок не знайдено або ж є неповним, кожен з агентів звертається до сусідніх агентів, щоб взнати можливі адреси інформаційних сховищ і (або) професійних “розв’язувачів“ даних задач. Цей процес продовжується до попередньо обумовленого користувачем терміну. Якщо за даний час не отримано позитивного результату – комп’ютер повідомляє, що розв’язок поставленої задачі сучасній науці невідомий. Наведений сценарій передбачає ряд процедур, таких як евристичний пошук, інтелектуальні взаємодії, нагромадження та узагальнення інформації, розпізнавання і класифікацію. Найважливішими проблемами для створення інтелектуальних агентів є: – розробка стандартної мови спілкування агентів; – розробка методів ефективної обробки знань, класифікації та розпізнавання; – розробка “живого“ користувацького інтерфейсу (“природна мова“). Головною серед цих проблем є розробка стандартів обміну знаннями в процесі спілкування агентів. Зараз існує щонайменше два подібні стандарти в цій галузі: Knowledge Query Manipulation Language та Knowledge Interchange Format, які до цього часу мають масу недоробок. Те ж саме можна сказати і відносно другої проблеми. Дійсно ефективних методів, що здатні стати базою побудови промислової технології світового масштабу, на сьогодні немає. Відносно останньої проблеми варто підкреслити, що саме проблема створення інтерфейсу, близького до природної мови, зруйнувала проект ESPRIT, який передбачав створення комп’ютера п’ятого покоління до 90-тих років. Проте зрушення в цьому напрямку є. Сьогодні Push-технології, а завтра інтелектуальні агенти будуть спрямовані для якнайкращого використання інформації і ефективної взаємодії між людьми через глобальні інформаційні мережі В операційних системах сімейства UNIX інтелектуальний агент, що діє в межах одного комп'ютера або локальної мережі, зазвичай називається демоном, у сімействі Windows — службою (сервісом).  1.Інтелектуальні агенти в штучному інтелекті Штучний інтелект (ШІ) — метафорична назва одного з найпріоритетніших наукових напрямів, що охоплює потужний арсенал теоретичих і технічних засобів, спрямованих на вирішення комплексу актуальних складних проблем, пов’язаних з дослідженням інтелектуальної сфери людини, комп’ютеризацією її розумової діяльності, створенням інформаційних інтелектуальних систем, здатних перебирати на себе функції, що традиційно вважалися незаперечною прерогативою головного мозку людини. У штучному інтелекті існує кілька типів агентів. Наприклад: Фізичний агент — агент, що сприймає навколишній світ через деякі сенсори й діє за допомогою маніпуляторів. Часовий агент — агент, що використовує інформацію, що змінюється з ходом часу, і пропонує деякі дії або надає дані комп'ютерній програмі або людині, і отримує інформацію через програмний ввід. Проста агентна програма може бути математично описана як агентська функція, що проектує будь-який придатний результат сприйняття на дію, яку агент може виконати, або в коефіцієнт, елемент зворотного зв'язку, функцію або константу, які можуть вплинути на подальші дії. f:P * − > A Програмний агент, навпаки, проектує результат сприйняття тільки на дію. 2.Види агентів Усіх агентів можна розділити на п'ять груп, за типом обробки сприйманої інформації: агенти з простою поведінкою. агенти з поведінкою, заснованою на моделі. цілеспрямовані агенти. практичні агенти. агенти, що навчаються. Агенти з простою поведінкою Агенти з простою поведінкою діють тільки на основі поточних знань. Їхня агентська функція заснована на схемі умова-дія IF (умова) THEN дія Така функція може бути успішною, тільки якщо навколишнє середовище повністю піддається спостереженню. Деякі агенти також можуть мати інформацію про їхній поточний стан, що дозволяє їм не звертати уваги на умови, передумови яких уже виконані. Агенти з поведінкою, заснованою на моделі Агенти з поведінкою, заснованою на моделі, можуть оперувати із середовищем, що лише частково піддається спостереженню. Усередині агента зберігається уявлення про ту частину, що перебуває поза межами огляду. Щоб мати таке уявлення, агентові необхідно знати, як виглядає навколишній світ, як він улаштований. Ця додаткова інформація доповнює «Картину Світу». Цілеспрямовані агенти Цілеспрямовані агенти схожі з попереднім типом, однак вони, крім іншого, зберігають інформацію про ті ситуації, які для них бажані. Це дає агентові спосіб вибрати серед багатьох шляхів той, що приведе до потрібної мети. Практичні агенти Цілеспрямовані агенти розрізняють тільки стани, коли ціль досягнута, і коли не досягнута. Практичні агенти, крім цього, здатні розрізняти, наскільки бажаний для них поточний стан. Така оцінка може бути отримана за допомогою «функції корисності», що проектує множину станів на множину мір корисності станів. Агенти, що навчаються, У деякій літературі агенти, що навчаються (АН), також називаються автономними інтелектуальними агентами (англ. autonomous intelligent agents), що означає їхню незалежність і здатність до навчання й пристосовування до обставин, що змінюються. На думку Ніколо Касабова, система АН повинна виявляти такі здатності: навчатися й розвиватися в процесі взаємодії з навколишнім середовищем пристосовуватися в режимі реального часу швидко навчатися на основі великого обсягу даних покроково пристосовувати нові способи розв'язання проблем володіти базою прикладів із можливістю її поповнення мати параметри для моделювання швидкої й довгої пам'яті, віку й т.д. аналізувати себе у термінах поведінки, помилки й успіху 4.Використання інтелектуальних агентів для пошуку інформації в Інтернеті Пошук потрібної інформації в мережі Інтернет являє собою істотну проблему в зв'язку з величезним обсягом доступної інформації. Широко поширені на сьогодні засоби пошуку не здатні забезпечити високу якість пошуку. Найбільш розвинені можливості пошуку надають сьогодні системи пошуку за ключовими словами. Істотним недоліком таких систем є низька точність видаваної інформації. Розвиток можливостей цих систем, спрямоване на підвищення точності інформації призводить до ускладнення мови запитів цих систем. Крім того, у кожній з систем є свій синтаксис мови запитів. У результаті, більшість користувачів просто ігнорують розвинені можливості систем пошуку і використовують тільки базові можливості, що призводять до низької якості результатів пошуку. Дана ситуація призводить до того, що користувач змушений сам обробляти велику кількість документів. Для постійної роботи користувача в Інтернет (саме роботи, з метою отримання потрібної інформації, а не "вільного плавання") характерна довготривала зацікавленість користувача в інформації за деякими вузьким областям. Тому доцільно надати користувачеві персонального інформаційного помічника (далі агента), який з одного боку дозволив би автоматизувати завдання збору і накопичення тематичної інформації, а з іншого б підвищив якість пошуку в Інтернет. На наш погляд такий інформаційний помічник повинен забезпечувати наступні можливості: • пошук інформації за завданням користувача одноразовий і постійний; • можливість автономного виконання завдань людини; • можливість доставки інформації на комп'ютер користувача; • фільтрація постійних потоків інформації; • надання знову з'являється в Internet інформації, яка може зацікавити користувача, у зв'язку з яким-небудь з його запитів. 1.ЗАГАЛЬНА СТРУКТУРА ІНФОРМАЦІЙНОГО ПОМІЧНИКА Особливий інтерес представляє побудова інформаційного помічника у вигляді інтелектуальної системи, так званого інтелектуального агента. Інтелектуальність агента є ступенем здатності до міркування і навченості. Інтелектуальність увазі, як мінімум, можливість задавати користувальницькі переваги агенту та наявність у агента механізму міркування, щоб діяти відповідно до цих потреб. Більш високий рівень інтелектуальності увазі наявність у агента моделі користувацьких потреб і механізму пошуку способу їх задоволення. Виходячи із заяв завдання, можна виділити ряд основних властивостей, якими повинен володіти такою агент. • Автономність - агент повинен виконувати велику частину своєї роботи автономно, не взаємодіючи з людиною або іншими агентами. • Комунікабельність - агент повинен уміти спілкуватися з користувачем, отримуючи від нього завдання та надаючи результати. • Адаптованість і адаптивність поведінки - в ході спілкування з користувачем агент повинен вміти налаштовуватися (або, хоча б бути налаштованим) під звички і методи роботи конкретного користувача. • Раціональність поведінки - агент своїми діями повинен просуватися до вирішення поставленого завдання і не робити дій, що перешкоджають цьому процесу. • Сприйнятливість - агент, перебуваючи в навколишньому його інформаційному середовищі, повинен сприймати певним чином зміни навколишнього середовища і реагувати на зміни. • Проактивність - агент не тільки повинен формально виконувати поставлену задачу пошуку, але і повинен збирати при цьому корисну для користувача інформацію, що відноситься до запиту користувача. Важливо відзначити, що агент не є інформаційно-пошуковою системою, як, наприклад, Yahoo, а є посередником між людиною і засобами пошуку, доступними в Інтернет, додаючи в той же час і власну пошукову функціональність. Агент повинен підтримувати накопичення корисної для користувача інформації у своїй базі даних. Агент не замінює наявних засобів пошуку інформації, а взаємодіє з ними, використовуючи їх як засоби впливу з метою виконання завдання і як засобу отримання інформації про навколишнє середовище. Виходячи з перерахованих вище властивостей, можна запропонувати наступну організацію агента (див. рис. 1).    Рис. 1. Загальна структура агента Агент працює постійно, виконуючи кілька завдань користувача одночасно. Диспетчеризацією дій агента спрямованих на роботу з зовнішнім середовищем і з користувачем виконує планувальник. • Планування пошуку. • Здійснення пошуку. • Автоматичне (без участі користувача) поповнення бази знань. • Взаємодія з іншими агентами.   База знань призначена для представлення такої інформації: • моделі користувача; • моделі навколишнього середовища (Internet); • інформації про доступні засоби впливу на навколишнє середовище; • інформації про інші агентів, з якими можна взаємодіяти; • моделі предметної області. Сенсори і засоби впливу здійснюють зв'язок агента з навколишнім середовищем. Інтерфейс користувача служить для отримання завдань від користувача і надання користувачу результатів виконання завдань. Враховуючи те, що агент будує всередині себе модель користувальницьких потреб дуже корисно надати користувачеві графічне представлення цієї моделі і можливість її редагування. Крім того, користувальницький інтерфейс служить для ручного поповнення моделі навколишнього середовища користувачем. Необхідно зазначити, що ускладнення інтерфейсу заброньований з метою отримання максимального контролю над агентом в експериментальних цілях. 2.МОДЕЛЬ КОРИСТУВАЧА Модель інформаційних потреб користувача всередині агента необхідна для • забезпечення більш ефективного пошуку; • забезпечення випереджального пошуку (проактивність); • стеження за потоками інформації. Модель відображає постійні інформаційні потреби користувача (інформаційні запити по стеженню за джерелами та запити безвідносно джерел). Вона також повинна містити інформацію про користувача і про інформаційні джерела, яким віддає перевагу користувач. Ця частина моделі повинна будуватися і поповнюватися або за бажанням користувача їм самим, або з допомогою механізму відгуків (feedback) в процесі роботи системи. Важливо зазначити, що ефективний пошук тематичної інформації можливий тільки при наявності у агента знань про предметну область. Ми пропонуємо будувати такий набір знань у вигляді тематичного класифікатора. Класифікатор містить список тем і по кожній темі набір документів, до неї відносяться і формулювання теми у вигляді набору ключових слів з вагами. Поповнення такого класифікатора допускається напівавтоматично на основі відповідей користувача та вручну користувачем. Хорошим варіантом для якості пошуку є наявність попередньо побудованого класифікатора в рамках заданої вузької предметної області. Користувальницький запит: • ключові слова • тема по класифікатору • бажаний користувачем рівень документів • тематичне співтовариство, якщо є • список рекомендованих інформаційних джерел • директивні терміни • тип пошуку • тип запиту (постійний, одноразовий). Інформація про користувача: • постійні запити користувачів (цікаві для користувача теми) • списки розсилки (постійно оновлюються інформаційні потоки) і фільтри для стеження • історія одноразових користувача запитів • рівень документів, вибір користувачем, рівень джерел, (якщо треба, то по кожному із запитів) • заборонені джерела 3.МОДЕЛЬ НАВКОЛИШНЬОГО СЕРЕДОВИЩА Модель повинна представляти наступні елементи навколишнього середовища: • інформаційні джерела та правила роботи з ними; • окремі інформаційні ресурси; • засоби отримання інформації про навколишнє середовище; • засоби впливу на навколишнє середовище. Поповнення моделі може здійснюватися вручну користувачем (навчання агента) за допомогою спеціального інтерфейсу і без участі користувача, в процесі роботи за рахунок використання так званого розширює пошуку. Пошук, здійснюваний агентом можна розділити на • пошук документів, інформація про які вже міститься в базі даних агента, • пошук документів в рамках заданої підобласті Інтернет, • пошук документів в Інтернет, • пошук нових URL, сайтів та інших інформаційних ресурсів. Останній з варіантів пошуку призначений для розширення бази даних агента, тоді як попередні лише можуть мати побічним ефектом виявлення нових інформаційних ресурсів. Отримуючи від користувача запит, агент повинен побудувати план виконання запиту, оцінити його тимчасову вартість і, погодивши план з користувачем, запустити його на виконання. Для здійснення пошуку використовуються такі примітиви пошуку. • Пошук в масиві відомих агенту документів. • Пошук шляхом використання зовнішніх класифікаторів. • Пошук засобами однієї або декількох систем пошуку за ключовими словами. • Пошук в електронній бібліотеці. • Пошук на одному Web-сайті з вбудованої системи пошуку. • Пошук документів за класифікатором в рамках тематичного співтовариства. • Пошук документів аналогічних заданому засобами однієї або декількох пошукових систем. • Складання тематичного співтовариства по заданому URL документа. Для вибору примітивів пошуку планувальником використовується наступна інформація. • Час виконання пошуку • Час на видачу першого з результатів пошуку • Релевантність видаваної інформації • Пошук документів або пошук інформаційних джерел • Вихідні дані для пошуку • Інтерактивність, можливість автономної роботи. На додаток до зовнішніх примітивам пошуку агент має вбудовані засоби побудови пошукового образу документа у вигляді набору ключових слів і визначення близькості двох пошукових образів документів. Також я б хотів згадати про те що кожна веб-сторінка має свою вагу,і для її оцінки використовують технологію PageRank. PageRank — алгоритм оцінки значимості веб-сторінок за допомогою розв'язання систем лінійних рівнянь. Замість прямого підрахунку кількості посилань PageRank інтерпретує посилання сторінки A на сторінку Б як голос сторінки A на користь сторінки Б. Після цього PageRank оцінює рейтинг сторінки відповідно до кількості отриманих голосів. PageRank також враховує значимість кожної сторінки, що отримала голос, адже голоси деяких сторінок є більш важливими, і відповідно до цього підвищується значущість сторінки, посилання на яку вони містять. Важливі сторінки отримують більш високу оцінку PageRank і відображаються на перших позиціях результатів пошуку. Для визначення значущості сторінки технологія Google використовує колективний інтелект всесвітньої мережі. Людина не бере участі в обробці результатів. Пошукова система Google не спотворює інформацію про позиції платою за результати пошуку. Література 1. Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск.  Вильямс, 2011 528 стр. 2 Досин Д.І. Литвин В.В. Нікольський Ю.В. Інтелектуальні системи базовані на онтологіях ,монографія,Львів:Видав.дім “Цивілізація” 2009 414c. 3. Ландэ Д.В., Снарский А.А., Безсуднов И.В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. — M.: Либроком (Editorial URSS), 2009. — 264 с. 4.Литвин В.В. Косич В.В. Яцишин Ю.В. Інтелектуальні системию-Львів:”Новий світ” 2008 406c 5. http://anbr.ru/view_press_about.php?lang=1&id=9 6. http://uk.wikipedia.org
Антиботан аватар за замовчуванням

31.03.2013 00:03-

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Ділись своїми роботами та отримуй миттєві бонуси!

Маєш корисні навчальні матеріали, які припадають пилом на твоєму комп'ютері? Розрахункові, лабораторні, практичні чи контрольні роботи — завантажуй їх прямо зараз і одразу отримуй бали на свій рахунок! Заархівуй всі файли в один .zip (до 100 МБ) або завантажуй кожен файл окремо. Внесок у спільноту – це легкий спосіб допомогти іншим та отримати додаткові можливості на сайті. Твої старі роботи можуть приносити тобі нові нагороди!
Нічого не вибрано
0%

Оголошення від адміністратора

Антиботан аватар за замовчуванням

Подякувати Студентському архіву довільною сумою

Admin

26.02.2023 12:38

Дякуємо, що користуєтесь нашим архівом!