Міністерство освіти і науки України
Національний університет
“Львівська політехніка”
Кафедра“Інформаційні системи і мережі”
Розпізнання тексту засобами FineReader 6.0
Методичні вказівки до виконання лабораторних робіт
для студентів спеціальності 7.030.500 "Прикладна лінгвістика"
з курсу "Комп'ютерні системи обробки текстової та графічної інформації"
Затверджено на засіданні кафедри
“Інформаційні системи і мережі”
Протокол № _____
від “___” __________ 20114 року
Розпізнання тексту засобами FineReader 6.0. Методичні вказівки до виконання лабораторних робіт для студентів спеціальності 7.030.500 "Прикладна лінгвістика", Голощук Р.О., ст. викладач, Гулка Т.Б., асистент, Львів, Вид-во Національного університету “Львівська політехніка”, 2012.
Укладачі Голощук Р.О., ст. викладач,
Гулка Т.Б., асистент
Мета роботи. Ознайомитися та на практиці засвоїти основні принципи введення та перетворення текстової інформації з твердого носія в електронний вигляд з допомогою системи оптичного розпізнавання символів FineReader.
ТЕОРЕТИЧНІ ВІДОМОСТІ
Будь-який текст, перш ніж його перекладати, потрібно ввести в комп’ютер. Для введення та перетворення текстової інформації з твердого носія в електронний вигляд використовують сканер та професійні спеціалізовані пакети призначені для оптичного розпізнавання символів (OCR, Otical Character Recognition).
Класична система для оптичного розпізнавання символів (OCRcистема) – це комп’ютерна система, яка дозволяє перетворювати отримане зі сканера графічне зображення сторінок в електронний текстовий файл, який може бути потім опрацьований у текстовому редакторі та системі автоматизованого перекладу.
Для подальшого відновлення слід зберігати у тексті перекладу формат (зовнішній вигляд) оригіналу: шрифти, виділення, розбиття на таблиці, абзаци і колонки, структури заголовків та інші елементи оформлення (технологія Rich Text Format).
Багато текстів містять малюнки, формули, фрагменти програм, які не перекладаються, але супроводжуються коментарями і повинні бути доступними для перегляду під час процесу перекладу. Малюнки і креслення містять підписи, які потрібно включати в склад перекладного матеріалу, а на кінцевій стадії повертати на попереднє місце. Ручне виконання таких операцій приводить до помилок і зниження продуктивності.
Після закінчення цього етапу в режимі діалогу стають доступними для перегляду і редагування вікна вхідного тексту і зображень.
Центральною проблемою розпізнавання є ідентифікація символу [3]. У перших системах для оптичного розпізнавання символів використовувався наступний алгоритм. Усім символам алфавіту ставились у відповідність матриці-еталони, які задавали розміщення темних та світлих крапок. Кожний символ зісканованого документу порівнювався з усіма еталонами. Якщо він виявлявся досить подібним на один із них (тобто відсоток співпадіння крапок зісканованого символу з крапками еталону є більше деякого порогового значення), то вважалося, що розпізнавання символу відбулося – гарантовано або умовно, в залежності від степеня співпадіння. в протилежному випадку, система для оптичного розпізнавання символів приймала рішення про неможливість ідентифікації.
Такі системи називаються шрифтовими системами (англійський термін multifont). Основна перевага алгоритму, який в них використовується — це простота реалізації. Однак його суттєвий недолік полягає в тому, що існують десятки різноманітних шрифтів, і система для оптичного розпізнавання символів повинна мати велику базу даних, яка містить накреслення символів для кожного з них. Крім того, такі системи нездатні розпізнавати нові шрифти, а нерідко навіть різні друкуючі машинки однієї марки мають свій, індивідуальний «почерк».
Системи для оптичного розпізнавання символів іншого класу, які називають омніфонтовими (шрифтонезалежними) системами, використовують в якості еталона порівняння евристичні правила накреслення символів, які не залежать від шрифту. На жаль, системи даного класу гірше працюють з текстами низької якості. Як відомо, висока ...