Міністерство освіти і науки України
Національний університет «Львівська політехніка»
Інститут телекомунікацій, радіоелектроніки та електронної техніки
кафедра «Радіоелектронні пристрої та системи»
Звіт з практичної роботи
на тему :
«Робота з пошуковими системами»
Львів – 2014
Мета: Ознайомитись з принципом роботи основних пошукових систем.
Теоретичні відомості
Пошукова система Bing
Bing.com — пошукова система компанії Microsoft. За допомогою Bing можна здійснювати пошук в Інтернеті, пошук зображень, відео. Результати пошуку в Bing.com можна вивести всі, або тільки певною мовою. Також в результатах пошуку на www.bing.com можна переглянути пов'язані пошукові запити. Сайт також доступний за адресою bing.ru, який, перенаправляє на російськомовний інтерфейс пошуковика за адресою bing.com.
Bing.com створений щоб допомогти людям не тільки швидко знайти потрібну інформацію, а й ефективно використовувати її для прийняття важливих рішень. Додатковий акцент зроблений на таких областях, як покупки в мережі, планування подорожей, здоров'я, локальний пошук. Завдяки функції Best Mach, що аналізує отриману в результаті пошуку інформацію, Bing запропонує користувачеві саме те, що він шукає. Функція Instant Answers істотно заощадить час, доповнюючи сторінку з результатами пошуку масою корисних даних. Сервіси Web Groups і Quick Tabs сортують знайдену інформацію, роблячи її більш наочною. Крім цього, в Bing є кілька знахідок, які роблять роботу з сайтом більш зручною. На сторінці результатів пошуку відео для кожного ролика є попередній перегляд (достатньо просто навести курсор), додатковий сниппет для знайдених документів (він розміщений справа і видний при наведенні курсору) і категорії пошуку (в лівій частині екрана розміщені посилання, які дозволяють уточнити запит). Наприклад, якщо ви шукаєте інформацію про свинячий грип, то побачите посилання на симптоми, причини, способи попередження).
Пошукова система Yandex
Yandex виконує пошук по словяномовній частині Інтернету з урахуванням морфології словянських мов. Маючи могутній механізм підбору сайтів під запити, ця пошукова машина допомагає знайти найбільш відповідні веб-сторінки. Яндекс щодня переглядає сотні тисяч веб-сторінок у пошуках змін або нових посилань, і їх база постійно зростає. Слово “Яndex” означає “Мовний index”, або, якщо по-англійськи, “Yandex” – “Yet Another indexer”. Офіційно пошукова машина Yandex.Ru була анонсована 23 вересня 1997 року на виставці Softool. Вже тоді пошуковик мав певні переваги – можливість перевірки документів на унікальність, облік морфології словянських мов, можливість пошуку з врахуванням відстані (наприклад, при пошуку точного словосполучення). Основною відмінною рисою Yandex є ретельно розроблений алгоритм оцінки відповідності відповіді запиту (релевантності), який враховує не лише кількість слів запиту, знайдених у тексті, але і “контрастність” слова (його відносну частоту для даного документа), відстань між словами, і положення слова в документі. Згідно даних глобальної статистики Рунету, сьогодні більше 50% пошукового трафіку генерується саме цим пошуковиком (для порівняння, на долю Rambler’a доводиться близько 20%, і ще менше – на долю Google’a). В Яндекса достатньо швидкий пошуковий робот. Завдяки ньому реєстрована сторінка з’явиться в пошукових результатах протягом 2-4 годин. Але це лише первинна індексація. Після повної індексації, вона може зникнути з пошукових результатів, якщо пошуковий робот визнає її за спам. Тому положення web-сторінки в результатах пошуку потрібно відстежувати до тих пір, поки не пройде повна індексація. Перелік результатів може мінятися залежно від завантаженості серверів, оскільки база даних Яндекса має кластерну структуру і рознесена на декілька серверів. Яндекс любить документи середніх розмірів, насичені текстом (статті і т.п.). Слід помірно повторювати ключові слова. Ключові слова можна писати в описі, але вага слів у цьому тегу є нижчою. Добре індексуються сторінки, що створено за допомогою скриптів .cgi, .php. Це стосується гостьових книг, форумів і т.п. Для індексації решти (окрім головної) сторінок сайту потрібно приблизно 2 тижні[8]. Хороших позицій допомагають досягати ключові слова в мета-тегах, де варто зазначати слова, які зустрічаються в тексті сторінки. Мета-теги, використовуються також і для видачі опису сторінки в результатах пошуку. Це потрібно враховувати при його складанні, оскільки, користувач по цьому опису приймає рішення відвідати вас, чи ні. Важливо розміщувати ключові слова і в тегу “title”, заголовках (h1-h6), змісті сторінки, “ALT”-тегах. Для визначення релевантности Яндекс використовує Зважений Індекс Цитування, який впливає на рейтинг в результатах пошуку. Звичайний Індекс Цитування використовується тільки при сортуванні сайтів в каталозі Яндекса.
Пошукова система YAHOO!
Типовим представником системи пошуку типу каталогу є система Yahoo. Вона є найпопулярнішою системою в США, оскільки не потребує спеціальної підготовки для пошуку інформації. Не потрібно знати правил формування запитів, достатньо просто переходити за гіперпосиланнями у необхідні розділи каталогу. Розбивка на розділи здійснювалася відповідно до американських стандартів. Після набору адреси на адресному полі браузера за допомогою клавіатури комп’ютера та ініціалізації клавішею мишки на екрані монітора з’явиться початкова сторінка системи Yahoo.
Початкова сторінка Yahoo! Розміщує поле введення запитів, клавішу відправки запитання та індекси каталогів. В системі синтаксис запитань ідентичний системі простого пошуку AltaVista. Але система цікава тим, що розміщує інформаційний каталог, де зібрані посилання на найбільш популярні вузли мережі Internet. Ці ієрархічні структури вміщують добре підібрані посилання з короткою анотацією.
Наявність каталогу позбавляє необхідності складати пошукове запитання. Потрібно лише вибрати зі списку каталогу найбільш точну тему пошуку.
Оскільки каталоги складаються людьми, у переліках завжди знаходяться дані, що найбільш точно відповідають темі (це називається “релевантність”). Як правило, в каталог потрапляють найпотужніші вузли Web.
Деревом каталогу можна рухатись в різних напрямках, але в результаті все одно повинні дійти однієї точки. Крім великого тематичного каталогу, сервер Yahoo! вміщує безліч малих баз даних. Систему зручно використовувати для пошуку спортивних подій, новин, прогнозу погоди, розважальних програм тощо.
Пошукова система Rambler
Rambler був першою пошуковою системою, що створена спеціально для російського Інтернету програмістом компанії Stack Ltd Дмитром Крюком у 1996 році. Слово "Rambler" перекладається як «гуляща людина», «бродяга» по Інтернету. На Rambler реалізовано розумну систему, яка виводить в результаті пошуку слова, які є синонімами запиту. Ще однією функцією системи є видача контекстної реклами не лише за конкретними ключовими словами, але і за фразами, що тісно пов'язані з ними. Інтерфейс у Rambler простий і зрозумілий - в центрі екрану знаходиться поле введення і дві великі кнопки - "Go" і "Advanced", з їх допомогою можна почати пошук за запитом і перейти до розширеного пошуку. Зліва декілька посилань дозволяють перейти до довідкової інформації, посилання вверху сторінки дозволяють змінити кодування для російського тексту. Крім стандартних логічних операцій над термінами, пропонуються такі засоби як призначення вагових коефіцієнтів словам (для цього перед словом потрібно поставити декілька плюсів - дуже бажана присутність слова або мінусів - слово небажане), пошук тільки в певній частині документа, пошук по URL. Серед додаткових сервісів Rambler можна виділити: Rambler-ICQ (єдина платформа, що надає всі формати інтернет-комунікацій в одному вікні: обмін миттєвими повідомленнями, аудіо- і відео-конференції, а також ряд додаткових комунікативних сервісів), Рамблер-Планета (швидкий і зручний щоденник з безліччю настройок, необмежене місце для фото і відеофайлів, а також вірний спосіб знайти друзів і однодумців), Рамблер-Друзі (єдина точка входу на найпопулярніші блогхостінги, фото і відео сайти, сервіси електронної пошти і соціальні мережі), проект Рамблер-ігри пропонує величезну різноманітність ігор в розділах «Он-лайн ігри», «Скачені міні-ігри», «Великі ігри».
Пошукова система Google
Лідер пошукових машин Інтернету, Google займає більше 60% світового ринку, а значить, шість з десяти знаходяться в мережі, звертаються до його сторінки в пошуках інформації в Інтернеті. Зараз реєструє щодня близько 50 мільйонів пошукових запитів та індексує більше 8 мільярдів веб-сторінок.
Була розроблена в 1998 випускниками Стенфордського університету Сергієм Бріном і Ларі Пейджем, які застосували для ранжирування документів технологію PageRank, де одним з ключових моментів є визначення "авторитетності" конкретного документа на основі інформації про документи, що посилаються на нього. Говорячи загальними словами, чим більше документів посилається на даний документ і чим вони авторитетніше, тим більше авторитетним даний документ стає. Кількісне значення авторитетності документа (іншими словами, зважена кількість посилань та PageRank) відноситься до так званих статичним факторів (тобто незалежних від конкретного запиту) і враховується при визначенні релевантності документа конкретним запитом як ваговий коефіцієнт. Поряд з цим Google застосував для визначення релевантності документа не тільки текст самого документа, але і текст посилань на нього. Ця технологія дозволила йому забезпечити видачу досить релевантних результатів на тлі інших пошукачів. Досить швидко Google став лідирувати в різних опитуваннях за таким показником, як задоволеність користувачів результатами пошуку.
Google здійснює пошук за документами на більш ніж 35 мовами. В даний час багато порталів і спеціалізованих сайтів надають послуги пошуку інформації в Інтернеті на базі Google, що робить завдання успішного позиціонування сайтів в Google ще більш важливою. Google проводить переіндексацію своєї пошукової бази приблизно раз на чотири тижні. Під час цього удосконалення, неофіційно званого Google dance, відбувається оновлення бази на основі інформації, зібраної роботами за час, що пройшов з попереднього удосконалення, і перерахунок значень PageRank документів. Також існує певна кількість документів з досить великим значенням PageRank, інформація про які в пошуковій базі оновлюється щоденно, однак значення PageRank перераховується тільки під час Google dance. Нормоване значення PageRank для конкретного документа, завантаженого в браузер, можна дізнатися, викачавши і встановивши Google ToolBar - спеціальну панель інструментів для роботи з цим пошукачем. Не дивлячись на те, що в пошукачі є форма для безкоштовного додавання сторінки в базу, Google віддає перевагу сам знаходити нові документи по посиланнях з уже відомих і не буде індексувати додану через форму сторінку, якщо в його базі не знайдеться жодної сторінки, що посилається на неї .
Пошукова система МЕТА
Українська пошукова система "МЕТА" є найвідомішим проектом компанії - ЗАТ «МЕТА» - розробника пошукових і інформаційних рішень. По суті META.ua представляє широкопрофільний портал із зручною пошуковою системою. Пошукова система МЕТА дозволяє шукати по всьому українському Інтернету, а також по Реєстру українських сайтів з урахуванням російської і української морфології. Це означає, що незалежно від граматичної форми ключових слів, отримаються документи, які містять шукані слова у всіх формах. Потужна повнотекстова пошукова система, має оригінальну базу даних. Виконує пошук з урахуванням морфології української, російської та англійської мов. Посилання супроводжуються анотаціями. Зручний та швидкий перегляд результатів. Нові сервіси пошукової системи "МЕТА" можна поділити на три типи: пошукові, інформаційні і комунікаційні. З пошукових сервісів відзначаються «Метановини». Це найпопулярніший розділ після великого пошуку і каталогу. Зараз там збираються новини від більше як 200 українських інтернет-джерел, близько 10 000 новин в день. Весь цей масив в режимі реального часу індексується, групується по темах і стає доступним для пошуку. З інформаційних сервісів цікавими є «Карти» і «Розклади потягів». В «Картах» зібрано найбільшу кількість карт по містах і областях України, що є доступними в Інтернеті, а «Розклади» – є найповнішими та найточнішими. Комунікаційні сервіси – форум, який став найбільшим українським неполітичним форумом. Поштовий сервіс розроблявся значно пізніше за тих, що є зараз на ринку, тому в ньому вдалося обійти відомі недоліки і він вийшов зручним і функціональним. Пошта зараз самий швидкозростаючий сервіс на «МЕТА».
Скрін-шоти пошукових систем
Bing
/
Yandex
/
YAHHO!
/
Rambler
/
Google
/
МЕТА
/
Для пошуку інформації мною була вибрана пошукова система Google, тому що по запиту в цій системі знайдено найбільше потрібної інформації на потрібній мові. Другим моментом є те, що вся потрібна інформація знаходиться на перших сторінках пошуку і на відміну від інших пошуковиків не потрібно переходити із сторінки на сторінку в пошуках потрібної інформації.
Порівняльна таблиця
Проаналізуємо та порівняємо характеристики розглянутих пошукових систем з метою виявлення їхніх переваг та недоліків. Результати порівняльного аналізу характеристик розглянутих пошукових систем зведемо в таблиці 1, де:
“+” – критерій виконується; ”-“ – критерій не виконується; ”+/-“ – критерій виконується частково. табл. 1
Назва пошуко-вої системи
Розши-рений пошук
Спеціалі-зований пошук
Повнота пошуку
Наявність додаткових сервісів
Індив. налашт.
Зручність інтерфейсу і простота використання
Надмірна кількість реклами
Google
+
+/-
+
+
+
+
-
Rambler
-
-
+/-
+/-
-
+/-
+
Bing
-
-
+/-
+/-
-
+
-
Yandex
+
+/-
+
+
+
+
+/-
Yahoo!
+
+/-
+
+/-
-
+
+/-
МЕТА
-
-
-
+/-
-
+
+
Висновок:
У ході практичної роботи я ознайомився з основними пошуковими системами, їх основними можливостями, перевагами та недоліками. Зробив аналіз цих пошукових систем і дійшов висновку, що серед багатьох пошуковиків які зараз є в мережі тільки одиниці мають потужну платформу, функціонал якої може задовольнити потреби користувача. Серед таких систем перше місце займає Google, яким користуються понад 60% користувачів – ця система включає в собі всі основні аспекти, які потрібні для зручного «серфінгу» в інтернеті. На другому місці знаходиться пошукова система Yahoo!, яка користується популярністю в США, основною її перевагою є те, що що вона розміщує інформаційний каталог, де зібрані посилання на найбільш популярні вузли мережі Internet. І замикає трійку лідерів російська пошукова система Yandex, вона популярна у Східній Європі і теж має багато переваг, основною з яких є велика бібліотека слов’яномовних документів.