Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Не вказано
Факультет:
Прикладна лінгвістика
Кафедра:
Не вказано

Інформація про роботу

Рік:
2024
Тип роботи:
Методичні вказівки
Предмет:
Комп’ютерні системи

Частина тексту файла

Міністерство освіти і науки України Національний університет “Львівська політехніка” Кафедра “Інформаційні системи і мережі” Розпізнання тексту засобами FineReader 6.0 Методичні вказівки до виконання лабораторних робіт для студентів спеціальності 7.030.500 "Прикладна лінгвістика" з курсу "Комп'ютерні системи обробки текстової та графічної інформації" Затверджено на засіданні кафедри “Інформаційні системи і мережі” Протокол № _____ від “___” __________ 20114 року Розпізнання тексту засобами FineReader 6.0. Методичні вказівки до виконання лабораторних робіт для студентів спеціальності 7.030.500 "Прикладна лінгвістика", Голощук Р.О., ст. викладач, Гулка Т.Б., асистент, Львів, Вид-во Національного університету “Львівська політехніка”, 2012. Укладачі Голощук Р.О., ст. викладач, Гулка Т.Б., асистент Мета роботи. Ознайомитися та на практиці засвоїти основні принципи введення та перетворення текстової інформації з твердого носія в електронний вигляд з допомогою системи оптичного розпізнавання символів FineReader. ТЕОРЕТИЧНІ ВІДОМОСТІ Будь-який текст, перш ніж його перекладати, потрібно ввести в комп’ютер. Для введення та перетворення текстової інформації з твердого носія в електронний вигляд використовують сканер та професійні спеціалізовані пакети призначені для оптичного розпізнавання символів (OCR, Otical Character Recognition). Класична система для оптичного розпізнавання символів (OCRcистема) – це комп’ютерна система, яка дозволяє перетворювати отримане зі сканера графічне зображення сторінок в електронний текстовий файл, який може бути потім опрацьований у текстовому редакторі та системі автоматизованого перекладу. Для подальшого відновлення слід зберігати у тексті перекладу формат (зовнішній вигляд) оригіналу: шрифти, виділення, розбиття на таблиці, абзаци і колонки, структури заголовків та інші елементи оформлення (технологія Rich Text Format). Багато текстів містять малюнки, формули, фрагменти програм, які не перекладаються, але супроводжуються коментарями і повинні бути доступними для перегляду під час процесу перекладу. Малюнки і креслення містять підписи, які потрібно включати в склад перекладного матеріалу, а на кінцевій стадії повертати на попереднє місце. Ручне виконання таких операцій приводить до помилок і зниження продуктивності. Після закінчення цього етапу в режимі діалогу стають доступними для перегляду і редагування вікна вхідного тексту і зображень. Центральною проблемою розпізнавання є ідентифікація символу [3]. У перших системах для оптичного розпізнавання символів використовувався наступний алгоритм. Усім символам алфавіту ставились у відповідність матриці-еталони, які задавали розміщення темних та світлих крапок. Кожний символ зісканованого документу порівнювався з усіма еталонами. Якщо він виявлявся досить подібним на один із них (тобто відсоток співпадіння крапок зісканованого символу з крапками еталону є більше деякого порогового значення), то вважалося, що розпізнавання символу відбулося – гарантовано або умовно, в залежності від степеня співпадіння. в протилежному випадку, система для оптичного розпізнавання символів приймала рішення про неможливість ідентифікації. Такі системи називаються шрифтовими системами (англійський термін multifont). Основна перевага алгоритму, який в них використовується — це простота реалізації. Однак його суттєвий недолік полягає в тому, що існують десятки різноманітних шрифтів, і система для оптичного розпізнавання символів повинна мати велику базу даних, яка містить накреслення символів для кожного з них. Крім того, такі системи нездатні розпізнавати нові шрифти, а нерідко навіть різні друкуючі машинки однієї марки мають свій, індивідуальний «почерк». Системи для оптичного розпізнавання символів іншого класу, які називають омніфонтовими (шрифтонезалежними) системами, використовують в якості еталона порівняння евристичні правила накреслення символів, які не залежать від шрифту. На жаль, системи даного класу гірше працюють з текстами низької якості. Як відомо, висока ...
Антиботан аватар за замовчуванням

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Ділись своїми роботами та отримуй миттєві бонуси!

Маєш корисні навчальні матеріали, які припадають пилом на твоєму комп'ютері? Розрахункові, лабораторні, практичні чи контрольні роботи — завантажуй їх прямо зараз і одразу отримуй бали на свій рахунок! Заархівуй всі файли в один .zip (до 100 МБ) або завантажуй кожен файл окремо. Внесок у спільноту – це легкий спосіб допомогти іншим та отримати додаткові можливості на сайті. Твої старі роботи можуть приносити тобі нові нагороди!
Нічого не вибрано
0%

Оголошення від адміністратора

Антиботан аватар за замовчуванням

Подякувати Студентському архіву довільною сумою

Admin

26.02.2023 12:38

Дякуємо, що користуєтесь нашим архівом! Якщо ви вважаєте, що наші матеріали були корисними, підтримайте нас будь-якою сумою, щоб ми могли продовжувати надавати вам якісні ресурси.

Новини