Міністерство освіти і науки України
Національний університет
“Львівська політехніка”
Кафедра“Інформаційні системи і мережі”
Розпізнання тексту засобами FineReader 6.0
Методичні вказівки до виконання лабораторних робіт
для студентів спеціальності 7.030.500 "Прикладна лінгвістика"
з курсу "Комп'ютерні системи обробки текстової та графічної інформації"
Затверджено на засіданні кафедри
“Інформаційні системи і мережі”
Протокол № _____
від “___” __________ 20114 року
Розпізнання тексту засобами FineReader 6.0. Методичні вказівки до виконання лабораторних робіт для студентів спеціальності 7.030.500 "Прикладна лінгвістика", Голощук Р.О., ст. викладач, Гулка Т.Б., асистент, Львів, Вид-во Національного університету “Львівська політехніка”, 2012.
Укладачі Голощук Р.О., ст. викладач,
Гулка Т.Б., асистент
Мета роботи. Ознайомитися та на практиці засвоїти основні принципи введення та перетворення текстової інформації з твердого носія в електронний вигляд з допомогою системи оптичного розпізнавання символів FineReader.
ТЕОРЕТИЧНІ ВІДОМОСТІ
Будь-який текст, перш ніж його перекладати, потрібно ввести в комп’ютер. Для введення та перетворення текстової інформації з твердого носія в електронний вигляд використовують сканер та професійні спеціалізовані пакети призначені для оптичного розпізнавання символів (OCR, Otical Character Recognition).
Класична система для оптичного розпізнавання символів (OCRcистема) – це комп’ютерна система, яка дозволяє перетворювати отримане зі сканера графічне зображення сторінок в електронний текстовий файл, який може бути потім опрацьований у текстовому редакторі та системі автоматизованого перекладу.
Для подальшого відновлення слід зберігати у тексті перекладу формат (зовнішній вигляд) оригіналу: шрифти, виділення, розбиття на таблиці, абзаци і колонки, структури заголовків та інші елементи оформлення (технологія Rich Text Format).
Багато текстів містять малюнки, формули, фрагменти програм, які не перекладаються, але супроводжуються коментарями і повинні бути доступними для перегляду під час процесу перекладу. Малюнки і креслення містять підписи, які потрібно включати в склад перекладного матеріалу, а на кінцевій стадії повертати на попереднє місце. Ручне виконання таких операцій приводить до помилок і зниження продуктивності.
Після закінчення цього етапу в режимі діалогу стають доступними для перегляду і редагування вікна вхідного тексту і зображень.
Центральною проблемою розпізнавання є ідентифікація символу [3]. У перших системах для оптичного розпізнавання символів використовувався наступний алгоритм. Усім символам алфавіту ставились у відповідність матриці-еталони, які задавали розміщення темних та світлих крапок. Кожний символ зісканованого документу порівнювався з усіма еталонами. Якщо він виявлявся досить подібним на один із них (тобто відсоток співпадіння крапок зісканованого символу з крапками еталону є більше деякого порогового значення), то вважалося, що розпізнавання символу відбулося – гарантовано або умовно, в залежності від степеня співпадіння. в протилежному випадку, система для оптичного розпізнавання символів приймала рішення про неможливість ідентифікації.
Такі системи називаються шрифтовими системами (англійський термін multifont). Основна перевага алгоритму, який в них використовується — це простота реалізації. Однак його суттєвий недолік полягає в тому, що існують десятки різноманітних шрифтів, і система для оптичного розпізнавання символів повинна мати велику базу даних, яка містить накреслення символів для кожного з них. Крім того, такі системи нездатні розпізнавати нові шрифти, а нерідко навіть різні друкуючі машинки однієї марки мають свій, індивідуальний «почерк».
Системи для оптичного розпізнавання символів іншого класу, які називають омніфонтовими (шрифтонезалежними) системами, використовують в якості еталона порівняння евристичні правила накреслення символів, які не залежать від шрифту. На жаль, системи даного класу гірше працюють з текстами низької якості. Як відомо, висока якість не завжди властива вітчизняним документам. Тому російським та українським розробникам омніфонт-систем довелось немало попрацювати над власними алгоритмічними базами, які дозволяли б працювати з текстами в поганому поліграфічному виконанні.
Новим етапом розвитку омніфонт-систем стали інтелектуальні системи для оптичного розпізнавання символів [4]. FineReader — омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання".
Процес уведення документа в комп'ютер можна підрозділити на два етапи:
Сканування. На першому етапі сканер відіграє роль "ока" комп'ютера: "переглядає" зображення і передає його комп'ютерові. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових крапок, картинкою, що неможливо відредагувати в жодному текстовому редакторі.
Розпізнавання. Обробка зображення OCR-системою.
Зупинимося на другому кроці більш докладно.
Обробка зображення системою FineReader містить у собі аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, картинок, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно зв'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки.
Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".
Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відносин між ними.
Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.
Адаптивність - здатність OCR-системи до самонавчання.
Нові можливості ABBYY FineReader 6.0
Загальні
FineReader дозволяє відкривати і розпізнавати PDF-файли.
Інтеграція з Windows Explorer. Файли зображень і пакети, створені в FineReader, тепер можна відкривати з вікна програми Windows Explorer.
Збереження розпізнаних документів з назвами файлів вихідних зображень.
Панелі інструментів, що налаштовуються.
Робота з зображеннями
Друк вiдсканованих зображень або сторінок з розпізнаним текстом.
Можливість ручної й автоматичної розбивки зображень, що містять дві книжкові сторінки або розташовані у визначеному порядку візитні картки.
Розпізнавання
177 мов розпізнавання.
Поліпшений алгоритм розпізнавання документів низької якості за рахунок методу адаптивної бінаризації зображення, вiдсканованого в "сірому" або "кольоровому", і очищення текстури ("рівномірного тла" зображення).
Збереження і редагування
Багатоколонковий WYSIWYG-редактор. У цьому режимі (з повним збереженням вихідного оформлення документа) блоки з розпізнаним текстом, таблицями і картинками відображаються саме там, де вони були на вихідному зображенні.
Точніше збереження оформлення вихідного документа при передачі в MS Word: збереження непрямокутних картинок, обтікання картинок багатоколонковим текстом, а також списків (нумерованих і маркованих).
Підтримка роботи з багатомовними файлами формату PDF: FineReader зберігає багатомовні тексти у формат PDF, не вимагаючи при цьому установки додаткових шрифтів.
Новий режим збереження у формат PDF - "Тільки зображення".
Можливість зміни ступеня стиску картинок у форматі JPEG при збереженні в HTML і PDF-файли.
Можливість зміни роздільної здатності малюнків у форматі JPEG при збереженні в RTF, DOC і PDF-файли.
Збереження вирівнювання тексту в осередках таблиць при передачі в MS Excel або збереженні у формат XLS.
Професійні можливості
Можливість колективного використання користувальницьких мов, користувальницьких словників і поповнюваних словників до стандартних мов (тільки для версії ABBYY FineReader Corporate Edition).
Можливість пошуку документа по слову з обліком усіх його граматичних форм (меню Виправлення>Розширений пошук). Доступна тільки для версії ABBYY FineReader Corporate Edition.
Програма заповнення форм ABBYY FormFiller. Ця програма входить до складу дистрибутива версії FineReader Corporate Edition, а також безкоштовно надається зареєстрованим користувачам версії ABBYY FineReader Professional.
Сканування
FineReader працює зі сканерами через TWAIN-інтерфейс. При цьому можливо два варіанти взаємодії програми зі сканерами через TWAIN-драйвер:
через інтерфейс FineReader: у цьому випадку для настроювання опцій сканування використовується діалог програми FineReader;
через інтерфейс TWAIN-драйвера сканера: для настроювання опцій сканування використовується діалог TWAIN-драйвера сканера.
Для початку сканування необхідно натиснути кнопку 1-СКАНИРОВАТЬ або в меню Файл вибрати пункт Сканировать.
Основними параметрами сканування є:
Тип зображення - сірий (256 градацій).
Сканування в сірому є оптимальним режимом для системи розпізнавання. У випадку сканування в сірому режимі здійснюється автоматичний підбір яскравості. Чорно-білий тип зображення забезпечує більш високу швидкість сканування, але при цьому губиться частина інформації про букви, що може привести до погіршення якості розпізнавання на документах середньої і низької якості друку. Для передання в електронний документ кольорових елементів, що містяться в документі-оригіналі (малюнків, кольорових букв і тла), необхідно вибрати кольоровий тип зображення. В інших випадках бажано використовувати сірий тип зображення.
Роздільна здатнiсть - 300 dpi для звичайних текстів (розмір шрифту 10 і більш пунктів) і 400-600 dpi для текстів, набраних дрібним шрифтом (9 і менш пунктів).
Яскравість - у більшості випадків підходить середнє значення яскравості - 50%. На деяких документах при скануванні в чорно-білому режимі може знадобитися додаткове на лаштування яскравості.
Зауваження. Сканування з роздільною здатнiстю 400-600 dpi замість 300 dpi або сканування в сірому або в кольорі, а не в чорно-білому може зайняти істотно більше часу. На деяких моделях сканерів сканування зі здатнiстю 600 dpi займає в 4 рази більше часу, ніж сканування зі здатнiстю 300 dpi.
Щоб установити параметри сканування:
При скануванні через TWAIN з використанням інтерфейсу FineReader: у меню Сервіс виберіть пункт Настройки сканера й у діалозі Настройки сканера встановіть потрібні опції.
При скануванні через TWAIN з використанням інтерфейсу TWAIN-драйвера сканера для установки параметрів сканування використовується діалог сканера, що відкривається автоматично при натисканні на кнопку 1-СКАНИРОВАТЬ. Опції для установки параметрів сканування можуть називатися по-різному, у залежності від моделі сканера. Наприклад, яскравість може називатися brightness, threshold, зображуватися "сонечком" або чорно-білим кружком. Зміст опцій описаний у документації до сканера.
Аналіз макета сторінки
Перш ніж приступити до розпізнавання, програма повинна знати, які ділянки зображення треба розпізнавати. Для цього проводиться аналіз макета сторінки, під час якого виділяються блоки з текстом, малюнки, таблиці і штрихи-коди (для версії Corporate Edition).
Аналіз макета сторінки може проводитися як автоматично, так і вручну. У більшості випадків FineReader сам успішно справляється з аналізом складних сторінок. Автоматичний аналіз виробляється по кнопці 2-РАСПОЗНАТЬ одночасно з розпізнаванням тексту.
Зауваження. Окрема процедура аналізу макета сторінки теж доступна (меню Процес>Аналіз макета сторінки). Правда, при цьому якість сегментації може бути нижче, тому що при спільній процедурі розпізнавання і сегментації для аналізу сторінки використовується додаткова інформація, отримана в процесі розпізнавання.
При обробці зображень виділяють блоки наступних типів:
Зона Розпізнавання - блок використовується для розпізнавання й автоматичного аналізу частини зображення. Після натискання на кнопку 2-РАСПОЗНАТЬ виділений блок автоматично аналізується і розпізнається.
Текст - блок використовується для позначення тексту. Він повинний містити тільки одноколоночный текст.
Таблиця - цей блок використовується для позначення таблиць або тексту, що має табличну структуру. При розпізнаванні програма розбиває даний блок на рядки і стовпці і формує табличну структуру. У вихідному тексті даний блок передається таблицею. Можна також виділити і відредагувати таблицю вручну.
Малюнок - цей блок використовується для позначення малюнків. Він може містити малюнки або будь-яку іншу частину тексту, що потрібно передати в розпізнаний текст як малюнок.
Штрих-код (тільки у версії Corporate Edition) - цей блок використовується для розпізнавання штрихів-кодів.
Розпізнавання
Завдання розпізнавання полягає в тому, щоб перетворити вiдскановане зображення в текст, зберігши при цьому оформлення сторінки. Перш ніж приступити до розпізнавання тексту, необхідно установити основні параметри розпізнавання: мову розпізнавання, тип друку розпізнаного тексту і тип сторінки.
Щоб запустити розпізнавання:
Натисніть кнопку 2-розпізнати на панелі Scan&Read.
У меню Процес виберіть потрібен Вам пункт:
Розпізнати - щоб розпізнати відкриту сторінку або всі сторінки, виділенні у вікні Пакет;
Розпізнати усі - щоб розпізнати всі нерозпізнані сторінки пакета;
Розпізнати Блок - щоб розпізнати блок або кілька блоків, виділені на зображенні;
Запустити фонове розпізнавання - щоб запустити розпізнавання у фоновому режимі.
Перевірка і редагування тексту
Після завершення розпізнавання результат з'являється у вікні Текст. Вікно Текст - це вбудований редактор програми FineReader; у ньому можна перевірити результати розпізнавання і відредагувати розпізнаний текст.
Одна з можливостей текстового редактора FineReader – це вбудована перевірка орфографії.
Система вбудованої перевірки орфографії дозволяє:
Знаходити непевно розпізнані слова (слова, у яких є непевно розпізнані символи).
Знаходити орфографічні помилки (неправильно написані слова).
Додавати невідомі системі FineReader слова в словник для того, щоб вони розпізнавалися впевнено.
Поповнення і видалення слів з користувальницького словника
Додавання слів у словник - один зі способів підвищення якості розпізнавання, тому що при розпізнаванні система перевіряє слова по словнику. У словник є сенс додавати слова, які часто зустрічаються (наприклад, терміни, скорочення, назви і т.д.). При додаванні слова система будує його парадигму (сукупність усіх форм даного слова). Завдяки цьому система може впевнено розпізнавати не тільки ту форму, що вже один раз зустрілася в тексті і була додана в словник, але і усі форми доданого слова.
Щоб додати слово в словник під час перевірки орфографії:
Натисніть кнопку Додати в діалозі Перевірка.
У діалозі Початкова форма потрібно встановити наступні параметри:
Частина мови (Іменник, Прикметник, Дієслово, Незмінне слово).
Якщо слово завжди пишеться з великої букви, відзначте пункт Ім'я власне. Якщо додається слово, що є скороченням, потрібно відзначити пункт Абревіатура.
Початкова форма слова.
Після підтвердження (ОК) відкриється діалог Построение парадигмы, у якому користувачу пропонуються питання, по відповідях на які будується парадигма слова. Для відповідей на питання потрібно натискати кнопки Так чи Ні.
Збереження в зовнішні редактори і формати
Результати розпізнавання можна зберегти у файл, передати в зовнішню програму, не зберігаючи на диск, скопіювати в буфер обміну або відправити по електронній пошті. Зберегти можна всі сторінки або тільки обрані.
Список підтримуваних програм:
Microsoft Word 6.0, 7.0, 97 (8.0), 2000 (9.0) і 2002 (10.0); Microsoft Excel 6.0, 7.0, 97 (8.0), 2000 (9.0) і 2002 (10.0); Corel WordPerfect 7.0, 8.0, 9.0 і 2002 (10.0); Lotus Word Pro 9.5, 97 і Millennium Edition; StarWriter 4.х і 5.х; PROMT 98 і всі програми, що підтримують стандарт ODMA.
Щоб зберегти розпізнаний текст, потрібно натиснути стрілочку праворуч від кнопки 4-СОХРАНИТЬ й у локальному меню вибраты необхідний пункт:
Зберегти розпізнаний текст, використовуючи Майстер збереження результатів.
Зберегти відкриту або виділені у вікні Пакет сторінки у файл або в зовнішню програму.
Зберегти всі сторінки пакета у файл або в зовнішню програму.
Робота з пакетами
У пакеті зберігаються як вихідні зображення, так і відповідний їм розпізнаний текст. Більшість установок FineReader стосуються пакету (опції сканування, розпізнавання, збереження, а також створені в процесі роботи користувальницькі еталони, мови і групи мов). При створенні нового пакета можуть використовуватися настроювання за замовчуванням, настроювання поточного пакета або настроювання з файлу з розширенням *.fbt.
ХІД РОБОТИ
Запустіть FineReader.
Відскануйте розданий друкований матеріал, встановивши оптимальні для типу оригіналу параметри сканування.
При необхідності здійсніть перевірку і коректування отриманих зображень - очищення від сміття, повертання, інвертування та інші.
Проведіть автоматичний аналіз макета сторінок.
Скорегуйте невірно змакетовані місця вручну.
Розпізнайте відскановані зображення, попередньо встановивши основні параметри розпізнавання: мову розпізнавання, тип друку розпізнаного тексту і тип сторінки
Перевірте результати розпізнавання і відредагуйте розпізнаний текст
Сформуйте свій словник користувача, шляхом додавання невідомих системі FineReader слів під час перевірки орфографії.
Збережіть результати розпізнавання у файл або передайте в зовнішню програму (Microsoft Word).
Збережіть пакет.
Оформіть звіти.
ЗМІСТ ЗВІТУ
Короткі теоретичні відомості.
Основні параметри сканування, які Ви використовували.
Основні параметри розпізнавання, які Ви використовували.
Наповнений словник користувача.
Зразок розпізнаного тексту.
Висновки.
ЛІТЕРАТУРА
М. В. Шовгенюк, В. Є. Бiлорус, та iн. Ввiд i вивiд зображень в комп’ютерних видавничих системах. – Львiв: Українська академiя друкарства, 1998.
Гринберг А.Д., Гринберг С. Цифровые изображения: Практическое руководство. — Мн.: ООО “Попурри”, 1997.
Никольский Н. Системы ОCR: проблемы, решения и перспективы развития.//Компьютеры + Программы. №8 1995 с. 43-45
Mike Heck. Пакеты для распознавания текста.//Компьютеры + Программы. №3 1995 с. 51-54
Pardhu Vadlamudi. Обзор новых систем распознавания речи.//COMPUTER WORLD/КИЕВ. №2 1995 с. 11.