Міністерство освіти і науки України
Національний університет «Львівська політехніка»
Інститут телекомунікацій, радіоелектроніки та електронної техніки
Кафедра РЕПС
Курсова робота на тему:
«Дослідження якості зображення при використані внутрішньокадрового та міжкадрового кодування у стандарті MPEG-2»
з дисципліни «Пристрої високоякісного запису та відтворення звуку та зображень»
Вступ
Система компресії MPEG-2 серед усього сімейства MPEG має найбільш широку область застосування. У всіх сучасних системах цифрового телевізійного мовлення компресія, або стиск потоків даних, відповідно до алгоритмів і процедурами, регламентованими стандартами MPEG-2, є обов'язковим технологічним компонентом.
У кожному цифровому телевізійному приймачі повинен бути декодер MPEG-2. Розвиток телебачення нерозривно пов'язано з удосконаленням техніки і методів телевізійних вимірювань, тому введення компресії цифрових потоків даних зажадало розробки нових методів оцінки цифрових потоків. Однак система координат і орієнтири в просторі телевізійних вимірювань залишилися незмінними, такими, якими вони були розроблені вітчизняною школою телевізійних вимірювань. Теорія і практика телевізійних вимірювань спрямована на досягнення трьох основних цілей:метрологічне забезпечення наукових досліджень, розробок і системного проектування; метрологічне забезпечення процесу виробництва телевізійної апаратури; метрологічне забезпечення процесу виробництва і передачі телевізійних програм.
У процесі наукових досліджень потрібно виробляти найрізноманітніші вимірювання, причому основною вимогою до вимірювальних пристроїв є універсальність і висока точність. У виробництві телевізійної апаратури вимірювання в основному використовуються для оцінки відповідності параметрів апаратури заданим нормам. При виробництві й передачі телевізійних програм вимірювання проводяться для контролю і регулювання параметрів апаратури, діагностики та прогнозування відмов. До теперішнього часу склалися такі області телевізійних вимірювань:оцінка та вимірювання якісних показників телевізійних зображень; вимірювання параметрів відеосигналів; вимірювання характеристик телевізійних приладів та обладнання; контроль і вимірювання в системах управління телевізійним мовленням. Вимоги, що висуваються до вимірювань і вимірювальним пристроям, різноманітні і іноді суперечливі. Тому в кожній області телевізійних вимірювань розробляються прилади, в основу роботи яких покладено різні методи: прямі вимірювання; непрямі вимірювання; вимірювання в процесі передачі телевізійних програм; вимірювання поза телевізійних програм; вимірювання в реальному масштабі часу; вимірювання не в реальному (відкладеному) масштабі часу; безперервні вимірювання та оцінка; дискретні (вибіркові) вимірювання та оцінка. Незважаючи на величезні досягнення у сфері розробки пристроїв для телевізійних вимірювань, в області оцінки якості телевізійних зображень зорова система людини залишається найбільш досконалим вимірювальним інструментом. Крім того, системи мовлення створюють зображення для глядачів, тому оцінка якості людиною є вирішальною. Відповідно до цього вимірювання в галузі оцінки якісних показників телевізійних зображень можуть бути розділені на дві групи: об'єктивні і суб'єктивні.
Об'єктивні виміри виконуються за допомогою спеціальних приладів. Метою прямих вимірювань є безпосередня оцінка якості зображень. Непрямі вимірювання виконуються з використанням спеціальних випробувальних сигналів. Суб'єктивні вимірювання припускають оцінку якості зображення спостерігачами - глядачами. Ці вимірювання якості завжди є прямими, оскільки думки глядачів про якість відтворення випробувальних сигналів або випробувальних таблиць з використанням будь-яких шкал суб'єктивних величин не мали б жодного сенсу. З введенням компресії MPEG-2 у двох перших областях вимірювань (оцінка якості зображення та вимірювання параметрів відеосигналів) потрібні були суттєві трансформації. У зв'язку з тим, що компресія призвела до появи додаткових спотворень і перешкод, стала необхідною розробка нових методів оцінки якості.
Основні поняття стандарту MPEG-2.
Як було зазначено, уявлення сигналів у вигляді MPEG-2 дозволяє поводження з відео та звуковий потік і з потоками комп'ютерних даних. Потік відео даних має ієрархічну структуру, об'єднану меж собою певними синтаксичними и семантичності правилами. Структура в себе включає шість типів блоків:
відео послідовність;
зображення;
зріз;
макроблок;
слайс;
блок.
Відео послідовність - елемент потоку відео даних вищого рівня. Стаючи собою серію послідовних кадрів телевізійного зображення. MPEG-2 допускає порядкові та черезрядкові послідовності.
Зображення – це основна одиниця яка приймається як вхідна і вихідна для відображення. Кодування зображення може бути трьох типів: І-кадри, Р-кадри, В-кадри.
І-кадри (Intraframes) опрацьовуються тільки з використанням внутрішньо кадрового передбачування. Вони кодуються незалежно від інших кадрів, так як обробляються з використанням власної інформації ,по принципу випадкового доступу до стиснених відеоданих. Вони застосовують кодове перетворення блоків елементів зображення і забезпечують рівномірне стискання. Це перший етап стиснення відеоданих. При відновлені телевізійного зображення по І-кадрам вони найменше деградують в залежності від помилок кодування і передачі відеоданих по каналу зв’язку. І-кадри є опорними при міжкадровому передбачені Р і В-кадрів.
Р-кадр (Predicted Frames) кадри з передбаченням, з компенсацією руху. Кодування здійснюється з врахуванням ближніх попередніх І-або Р-кадрів. Цей спосіб називається передбачення наперед, тому що використовується «різницева» схема стиснення, при якому зберігаються тільки різниця від попереднього кадру. В Р-кадрах, якщо порівняти іх із І-кадрами , в три рази більша степінь стискання відеоданих.
Обробка відеоданих в Р-кадрі виконується по макроблокам. Кожний макроблок формується з використанням алгоритмів компенсації руху і передбачення в майбутнє, поки в блоці не появиться новий об’єкт. З цього моменту процес кодування переходить на алгоритми, засновані в І-кадрах на внутрішньокадрове передбачення. Р-кадри є опорними для наступних Р-або В-кадрів. При цьому необхідна висока точність відновлення вихідного зображення при декодуванні опорних Р-кадрів. При помилці опорного кадру поширюється по всіх кадрах, зв’язаних із опорним.
При компенсації руху, застосованої до макроблоків Р-кадрів, виникає два види інформації: Вектори руху (різниця між базовим і кодованими макроблоків) і значення помилок (різниця між передбачуваними величинами і дійсними результатами). Якщо макроблок в Р-кадрі не може бути описаним з використанням компенсації руху, що виникає при появі деякого невідомого об’єкту, то він кодується тим же способом , що і макроблоків І-кадрі.
В-кадри (Bi-Direcctional Frames) кадри з двонаправленим передбачування,з компенсацыэю руху. Для формування В-кадрів також застосовується «різницева» схема стиснення аналогічно Р-кадрів,проте в якості «базових» кадрів використовують обидва сусідніх кадри: попередній і наступний. Цей спосіб називається двонаправленим передбачуванням.
Алгоритми кодування В-кадрів залежать від характеру телевізійного зображення. Передбачено чотири способи кодування. В одному застосовується компенсація руху і передбачення наперед по ближнім попередніх І-або Р-кадрам, в другому – компенсація руху і зворотне передбачення по ближньому майбутньому І-або Р-кадрам. Зворотне передбачення в тих випадках, коли в кодованому В-кадрі появляються нові об’єкти зображення. Третій алгоритм – компенсація руху і двонаправлене передбачення, при якому опорні є попередні або наступний І-або Р-кадр. В четвертому застосовується внутрішньокадрове передбачення без компенсації руху. Таке кодування необхідне при різкій зміні передаючих сюжетів, а таке при великих швидкостях руху об’єкта телевізійного зображення. З В-кадрами зв’язане найбільше стиснення відеоданих. Через велику степінь стиснення точність відновлення вихідного телевізійного зображення, В-кадрів не застосовується в якості опорних. Помилки при декодуванні не поширюються на інші кадри.
Ясно, що точність кодування повинна бути максимальною для І-кадрів, нижчою для Р-кадрів, та мінімальною для В-кадрів.
В стандарті MPEG-2 порядок запису інформації про телевізійний кадр не співпадають з порядком кодування і декодування. Так, для декодування теперішнього В-кадра необхідно опрацювати наступний кадр,через це потрібно мати буферний блок пам’яті в декодуючому пристрої для збереження інформації про наступний кадр. Розглянуте ускладнення декодую чого пристрою компенсується покращенням суб’єктивної якості відтворювального зображення за рахунок В-кадрів.
Джерела різних типів об’єднуються в повторювальні серії, названі групами відеокадрів (ГВК). Порядок кодування, декодування і відтворення відеокадрів трьох типів може бути різним. Для прикладу на рис.1… Зображено один із варіантів поєднання відеокадрів, забезпечуючи мінімізацію ентропії, кількості біт на елемент зображення. Група починається з зображення типу І, формуючи опорний сигнал для передбачення при кодуванні зображень іншого типу.
Рис.1 Цикл кодування і декодування по стандарту MPEG:
а- порядок кодування і декодування зображень
б- порядок відтворення зображення
Група зображень повинна бути достатньо великою, якщо необхідно добитися високого ступеня компресії. ГВК закінчується безпосередньо пере появою наступного І-кадра. ГВК визначає границі міжкадрового кодування. Багаторазові досліди ефективності різних співвідношень Р-і В-кадрів у ГВК показали, що послідовність довжини ГВК цілеспрямовано застосовувати тільки для високоякісних незашумлених зображень. Через велику кількість В-кадрів призводить до значної затримки, так як І-або Р-кадри, в оточені кадрів В-типу, вже має бути в декодері до моменту декодування В-кадра. На початку кожного сюжету повинен бути І-кадр, а в кінці Р-кадр.
Збільшувати частку В-кадрів можна тільки в рамках одного сюжету, інакше виникають великі помилки передбачення і компенсації руху. Оскільки типова тривалість групи кадрів (під час представлення – приблизно 0,5 с) значно менше характерної віддалі між границями сюжетів, то в більшості випадків жорсткого завдання структури ГВК не спричиняє до значних візуальних помилок через те, що зміна сюжету попадає в середину групи кадрів.
При передачі по каналу зв’язку порядок проходження І-,Р-,В-кадрів змінюється.
Зріз – це ряд або неповний ряд макроблоків. Поділ зображення на зрізи є інновацією в алгоритмах MPEG. Якщо поступають спотворені дані, то вони можуть бути закриті в один зріз, який може бути пропущеним декодером, так як зріз не є цілим зображенням. Заголовок зрізу також містить коефіцієнт квантування, який дозволяє декодеру правильно проводити відновлення зображення. Кожне зображення ділиться на зрізи, які складаються із макроблоків (рис.2). Макроблок складається із блоків розміром 8×8 елементів зображення. Кожний макроблок має в собі групу із чотирьох блоків з відліками яскравості з розмірами 16×16 пікселів і групу блоків з відліками кольору, взятих із тої самої області зображення.
Кількість блоків з відліками кольору для різних форматів (рис. 3).
4:2:0 – по одному блоку Сb i Cr;
4:2:2 – по два блоки Сb i Cr;
4:4:4 – по чотири блоки Сb i Cr;
В зображеннях типу «кадр», в яких можна застосовувати в кадрове кодування, можливо два варіанти внутрішньої організації макроблоків (рис.3).
/
Рис 2. Формати дискретизації
Рис. 3. Внутрішння організація макроблоку.
У випадку кадрового кодування кожний блок яскравості формується із почергових рядків двох полів (рис.3а);
При польовому кодуванні кожний блок яскравості формується із рядків тільки одного із двох полів.( рис.3б);
Для підвищення точності передбачення і зменшення розміру необхідних даних для відображення зображення застосовують компенсацію руху.
Макроблок - це область, маючи розмір 16×16 пікселів. Кольорова частина макроблоку залежить від вибірки відліків яскравості. Структура макроблоку MP@ML із форматом 4:2:0 наведена на рис.3. З цього рисунку видно, що макроблок формату 4:2:0 складається із шести блоків. Яскравісна складова являє собою квадрат із чотирьох блоків розміром 8×8, кольорорізницеві складаються із одного блоку 8×8 кожна.
Макроблок – це основна одиниця для компенсації руху. Вектори руху визначаються для яскравісної складової, а вектори руху для кольору визначаються із векторів руху для яскравісної складової.
Блок має розмір 8×8 пікселів і є найменшим синтаксичним елементом MPEG-2 відео. Блоки є основними елементами для ДКП кодування.
Компресія зображень MPEG-2.
2.1. Процес зменшення надлишковості
З інформаційного погляду, всі зображення складаються із трьох прямокутних матриць відліків: яскравісну Y та ще дві кольорорізницеві Св и Сr. Стандарт MPEG-2 допускає різні структурованих матриці (4:2:0; 4:2:2; 4:4:4). Кожне зображення діліться на зрізі, які з макроблоків. Макроблок містіть блоки розміром 8х8 елементів зображення; групу з чотирьох блоків із відліками яскравості та група блоків з відліками кольоровості, кількість яких поклади від формату (по 1, по 2, по 4). Група наступних один за іншого макроблоків які називається слайсами. Кількість макроблоків в слайсі, може бути довільнім, головне, щоб слайс в зображенні не перекривалися. Усі структурні елементи потоку відео даних, які є результатом внутрікадрового и міжкадрового кодування (крім блоки и макроблок), доповнюються спеціальними и унікальними початковими кодами («Заголовок - елементи»). У заголовку наводитися різноманітна додаткова інформацію, наприклад, розміри та співвідношення сторін зображення, частота, кодування, швидкості потоку, матриця квантування, формат дискретизації кольорового зображення, координат та основних кольорів та білого кольору, параметри матріці на формування яскравості та кольорорізницевих сигналів.
Зменшення просторової надлишковості виконується на рівні блоку. Набір операцій такого кодування - дискретного косинусного перетворення; зважене квантування; ентропійне квантування (кодування Серії Коефіцієнтів косинусного перетворення, отриманий внаслідок діагонального сканування матріці). На підвищення точності передбачено застосування компенсація руху: оцінюється швидкість переміщення руху об'єктів від кадрів за певним передбаченням. Визначення розміру ї напрями усунення (вектор руху) застосовують рівність макроблоків. Оцінка вектора - складаний процедура, сам він визначає асиметрію кодека MPEG-2, однак цьому напрямі працюють.
Стандарт передбачає зменшення як просторової, а й тимчасової надлишковості. Після компресії розмір зображення Р типових телевізійних сюжетів становіть 35% від І, В - 25% від I., втричі зменшується швидкість потоку даних. Артефакти ж пов'язані з рухом (у на відміну від JPEG и DV) помітність тим менша, що швидче рухається зображення.
Що стосується черезрядкової розгортки кожен кадр и двох полів. Перше поле містіть непарні рядки кадру, а друге полі - парні рядки. У цьому можливо два варіанта кодування цілого кадру, вибір однієї з яких складає основі оцінки руху на ньому.
Що стосується кадрового кодування кодованого зображення є повний кадр, який повністю зберігається в запам'ятовуючому пристрої кодера. Кадрове кодування застосовується у разі, коли зміни у іншому полі кадру щодо першого поля тієї самої кадру незначні. Перше полі кадру можна використовувати для передбачення макроблоків іншого поля и навпаки.
2.2. Процес кодування
Можливі два основні режиму роботи кодера компресії - із постійною швидкістю потоку та з їх постійнім рівнем якості декодованого зображення. Управління ступенем компресії можливо зміною параметрів матріці квантування (більш грубі квантування). Проте і зростають необоротні спотворення зображення через шуми квантування. Здійснюється безупинна зміна коефіцієнтів матріці квантування. Чім дрібнішій від деталі що більш активне зображення, тім паче грубе квантування. Тому буде більше спотворень та артефактів. Такий режим застосовується при передачі каналами в зв'язку із фіксованою пропускною здатністю (цифрові супутникові, кабельні, наземне телевізійне мовлення).
У режимі з їх постійнім якістю застосовується фіксована матриця квантування, та заодно швидкість потоку стиснених даних є зміною. Відповідно, що більше деталей, вища активність зображення, то більше вписувалося швидкість потоку. Такий режим можна використовувати при записі на дискові носії без обмеження на обсяги, проте можливі обмеження на швидкість відтворення - вона то, можливо довільно велика.
Якщо запис компресійного потоку виробляється над умовах реального часу, можна скористатись й іншими способи управління швидкістю. Наприклад, виконувати компресію у два проходи. У першому підбираються параметри, щоб забезпечити максимально якість; другою - здійснюється компресія із знайденими параметрами. Є й Інші способи: можливо відділення заздалегідь кадрів з велику кількість детальних швидко рухаючи об'єктів и помістити їх задля примусового кодування типом I - застосовують у DVD.
Компенсація руху
У стандарті MPEG-2 використовується метод компенсації руху, заснований на макроблоках. Два суміжних кадру, містять лише активні рядки сигналу яскравості (576 активних рядків), розбиваються на макроблоки більші зони пошуку. Розміри макроблока мають бути узгоджені зі структурою дискретизації кадру ТБ зображення. У стандарті MPEG-2 блок -це квадратна матриця відліків розміром 16 рядків за вертикаллю і 16 шпальт (відліків) за горизонталлю. Зазначимо, що за такого форматі блоку, ТБ кадр розбивається на цілу кількість зон. По вертикалі (576 активних строк/16) - це 36 зон, за горизонталлю (704 активних відліків/16) - 44 зони.
Зона пошуку має бути досить великий, щоб стиснення макроблок зображення першого кадру не вийшов із зони пошуку другого кадру. Розміри зони пошуку обмежуються обсягом обчислень, які потрібно виконати у реальному масштабі часу. Ці розміри також мають бути узгоджені з прийнятою структурою дискретизації ТБ кадру. Зазвичай, вони у 4 рази більше розмірів окремого макроблока. Інакше кажучи, розміри зони пошуку - це 64 x 64. Отже, в ТБ кадрі створюється 576/64 = 9 зон пошуку за вертикаллю і 704/64 = 11 зон за горизонталлю.
Приміром, треба визначити координати руху при пророкуванні вперед, І тому береться макроблок відліків першого кадру і шукається його нове становище у зоні пошуку другого кадру, обчислюються міжкадрову різниці відліків. Становище макроблока, у якому сумарне значення модулів міжкадрової різниці макроблока виходить найменшим, приймається над його реальне переміщення, після чого координати вектора руху розраховуються як усунення макроблока за вертикаллю і горизонталі щодо його початкового становища.
Цілю внутрішньо кадрового кодування, забезпечення перетворення відеоінформації із часової області в спектральну,- скорочення просторової надлишковості в межах кадру(або поля) телевізійного зображення. Ця надлишковість викликана сильними кореляційними зв’язками між елементами зображення. Якщо знайти відповідне ортогональне перетворення, то можна перетворити масив відліків зображення в матрицю коефіцієнтів, які уже не будуть корельовано один з одним. До цих некорельованих коефіцієнтів можна застосувати ентропійне кодування і добитися скорочення цифрового потоку. Найчастіше застосовують методи лінійного ортогонального перетворення. Лінійність ортогонального перетворення значить, що операція складання, обчислення і множення на скаляр дійсні і після перетворення, а ортогональність – що перетворювальний елемент зображується обмеженим набором ортогональних функцій.
Дискретно-косинусное перетворення - це перетворення виконується поблочно, навіщо ТБ зображення розбивається на блоки. Кожен блок - квадратна матриця. Її розміри: 8 відліків (рядків) за вертикаллю і побачили 8-го відліків за горизонталлю. Отже, матриця містить 8 x 8 = 64 відліку ТБ сигналу. Вона називається сигнальній матрицею. Причому у ТБ кадрі створюється : 576/8 = 72 зони за вертикаллю і 704/8 = 88 зон за горизонталлю, що у цілому дає: 72 x 88 = 6336 блоків, які підлягають дискретно-косинусному перетворенню (ДКП) у реальному масштабі часу. Через війну ДКП вихідна сигнальна матриця 8 x 8 = 64 ТБ відліків перетворюється на матрицю частотних коефіцієнтів ДКП такої ж розміру 8 x 8 = 64.
Оскільки становище ТБ відліків сигнальною матриці визначається двома координатами, то частотні коефіцієнти (З) матриці ДКП є функціями цих двох змінних і позначаються двозначними номерами. Зазначимо , що матриця частотних коефіцієнтів ДКП не має прямого геометричній через відкликання становищем відліків ТБ сигналу на ТБ растрі, а є лише зручну форму математичної записи, коли він частотні коефіцієнти ДКП можна трактувати як двомірний спектр ТБ зображення на горизонтальному і вертикальному напрямах ТБ кадру.
Спектр ДКП має дуже важливу, коли його оцінювати з позицій компресії відеоданих, особливість: основна енергія частотних складових цього спектра концентрується у невеликий в області близько нульових частот. Амплітуда високочастотних складових чи мала, чи навіть дорівнює нулю. У цьому і будується вся гра. Передача підлягають ті частотні коефіцієнти матриці ДКП, величини яких - понад прийняті пороговими значеннями. Коефіцієнти нижче граничного значення вважаються нульовими.
Запровадження порогової (нелінійної) обробки, слід сказати, веде до втрат інформації та, відповідно, до їх зниження якості відновленого на декодері ТБ зображення. Проте, при розумному виборі величини порога це погіршення виявиться практично непомітним або ж допустимим.
Слід зазначити, що з кодування динамічний інтервал коефіцієнтів ДКП зростає у 8 раз. Так, при рівневому кодування відеосигналу 8 біт його динамічний інтервал 0 - 255 дискретних рівнів. У цьому динамічний інтервал коефіцієнтів спектра ДКП становитиме від 0 до 2040 і зажадав від -1020 до +1020 дискретних рівнів для коефіцієнтів постійної і змінних складових ДКП, відповідно.
Кодування коефіцієнтів ДКП у тому широкому динамічному інтервалі зажадає у наступних вузлах кодера переходу від 8 бітового до 11-битовому коду. Щоб уникнути цього, після ДКП виробляється масштабування (стиснення) динамічного інтервалу сигналів коефіцієнтів ДКП рахунок збільшення кроку квантування увосьмеро. Ця операція зводиться до поділу здобутих у матриці значень коефіцієнтів ДКП на 8. Результат розподілу потім заокруглюється до найближчих цілих значень рівнів нової шкали квантування. Приміром, якщо вихідне значення коефіцієнта ДКП були 22-а, то після розподілу на 8 і округлення до найближчого цілого значення (22/8 = 2.75) нового значення буде 3. У цьому новий динамічний інтервал становитиме від -255 до +255 дискретних рівнів.
Після вирівнювання динамічного діапазону коефіцієнти ДКП піддаються зваженому квантуванню для скорочення надлишковості в високочастотної області. Слід зазначити, що чутливість очей тут найменша. Точність кодування залежить від кроку квантування. Він вибирається різним до різних коефіцієнтів матриці ДКП, його масштаб у процесі кодування не може змінюватися від 1 до 31.
Коефіцієнт, відповідний постійної складової ТБ сигналу, кодується з допомогою 10 біт, тому що за більш грубому квантуванні сусідні блоки починають відрізнятися за яскравістю. На екрані вони проявляються у вигляді шахової структури.
Останній алгоритм скорочення надлишковості пов'язані з кодами перемінної тривалості. У цьому ті коефіцієнти ДКП, які повторюються найчастіше, кодуються короткими кодовими комбінаціями, а рідкісні значення коефіцієнтів - довшими. Зазначимо, що у стандартах MPEG-2 і MPEG-1 застосовуються схожі алгоритми стискування відеоданих. Тому найдокладніші дані з цього питання можна знайти у статті "Стандарт MPEG", що у 625, N6, 1996 р.
Лінійне ортогональне перетворення характеризується тим, що між елементами зображення усуваються статичні залежності і розподіл енергії в перетвореному спектральному елементу є нерівномірним. Ці особливості застосовуються в процесі кодування. На практиці можна підібрати таке ортогональне перетворення, що для типових зображень більша частина коефіцієнтів матриці буде мати практично нульові значення. Усуваючи ці нульові коефіцієнти, можна також скоротити цифровий потік. Серед можливих ортогональних перетворень найбільшого поширення набуло дискретне косинусне перетворення, основою на використання ортогональної системи дискретних косинусних функцій наростаючої частоти. Перетворення даного типу добре узгоджується з параметрами телевізійного сигналу, що є необхідною умовою ефективного кодування відеоінформації.
Якість телевізійного зображення при кодування по стандарту MPEG-2
Потоки стиснення даних являють собою багаторівневу ієрархічну структуру, параметри якої повинні відповідати прийнятим стандартам. Тому з'явилася необхідність розробки серії аналізаторів потоків даних MPEG-2.
Нелінійність телевізійних систем з компресією у практиці аналогового телевізійного мовлення найширше розповсюдження отримали об'єктивні непрямі методи вимірювання якості зображення. На основі багаторічних досліджень були створені сімейства випробувальних сигналів, використання яких забезпечувало високий ступінь кореляції результатів об'єктивних непрямих вимірювань і прямих суб'єктивних оцінок.
Вимірювання спотворень випробувальних сигналів в телевізійному тракті дає можливість передбачити спотворення зображення в процесі передачі зображень телевізійної програми в тому ж тракті, не вдаючись до трудомістким суб'єктивним експериментів.
Об'єктивні непрямі методи дозволяють отримувати достовірні результати і в цифрових телевізійних системах без компресії. Той факт, що випробувальні сигнали, включені до складу відеосигналу в інтервалі зворотного ходу, та зображення телевізійної програми зазнають в телевізійному тракті одні й ті ж спотворення, дозволяє вважати системи аналогового телебачення і системи цифрового телебачення без компресії лінійними. У даному контексті лінійність розуміється в тому сенсі, що виникають у телевізійному тракті спотворення не залежать істотно від змісту зображення, тобто від його просторово-часової структури.
Системи цифрового телебачення, в яких використовується компресія, є в цьому сенсі нелінійними. Спотворення, що виникають у циклі компресії-декомпресії MPEG-2, істотно залежать від структурних властивостей телевізійного зображення. Звичайні статичні випробувальні сигнали легко піддаються компресії MPEG-2. Спотворення таких випробувальних сигналів малі (навіть при великих ступенях компресії) і не дають жодного уявлення про те, як будуть спотворюватися зображення реальної телевізійної програми.
Спотворення в системах з компресією набагато більш різноманітні, ніж у системах без компресії. Треба додати, що багато перешкоди, що виникають на зображенні в результаті компресії, здаються чужорідними і штучними, тому їх часто називають артефактами. Наприклад, одним з типових проявів спотворень компресії MPEG-2 є блокова структура, що здається на зображенні абсолютно неприродною. Компресія статичних зображень супроводжується меншими спотвореннями, ніж компресія динамічних телевізійних послідовностей.
Трансформації вхідного зображення кодера компресії, які ведуть до зменшення кореляційних зв'язків сусідніх пікселів телевізійного кадру або однойменних пікселів сусідніх кадрів (наприклад, збільшення різкості зображення за допомогою апертурною корекції або збільшення рівня флуктуаційних шумів), ведуть до зростання рівня спотворень і різноманітних артефактів. Причиною цього є те, що системи MPEG-2, використовувані в мовленні, працюють в режимі постійної швидкості цифрового потоку даних на виході кодера стиснення. Як відомо, принцип компресії заснований на послідовному виконанні операцій дискретного косинусного перетворення, квантування коефіцієнтів косинусного перетворення і ентропійного кодування послідовності квантованих коефіцієнтів, причому дискретне косинусне перетворення обчислюється в рамках блоку елементів зображення з розмірами 8x8 пікселів.
Для статичних зображень, в яких яскравість і кольоровість змінюються плавно, тобто для зображень з високим ступенем міжпіксельна кореляції, число ненульових коефіцієнтів косинусного перетворення, які тільки й підлягають передачі, невелика. Якщо зображення стає дрібно структурним і динамічним, коли кореляційні зв'язки між елементами зменшуються, число ненульових коефіцієнтів в блоці збільшується. Способом, який дозволяє зрівняти швидкості потоків даних у цих двох випадках, є використання більш грубого квантування коефіцієнтів дискретного косинусного перетворення (виділення меншої кількості бітів на один коефіцієнт) для дрібно структурних і динамічних зображень. Більш грубе квантування веде до зростання шумів квантування і, відповідно, до великих спотворень і артефактів.
Таким чином, якість зображення на виході декодера системи компресії стає змінним, його значення є функцією змісту зображення (більш точно - функцією просторових і часових властивостей телевізійного зображення). Ця обставина змусила відмовитися від застосування простих випробувальних сигналів у системах з компресією і перейти до широкого використання суб'єктивних експертиз з метою оцінки якості.
Метою численних серйозних досліджень стала розробка нових прямих об'єктивних методів вимірювання якості зображення, при яких оцінюються спотворення зображень в реальних програмних матеріалах (або спотворення тестових зображень, типових для програмних матеріалів). Суб'єктивні вимірювання строго формальні суб'єктивні експертизи з метою оцінки якості телевізійного зображення протягом багатьох років аналогового телебачення проводилися з використанням порівняно стабільного ряду методів, регламентованих Рекомендацією ITU-R BT.500. Групі спостерігачів, відібраних спеціальним чином і що володіють нормальними характеристиками зору, протягом деякого часу демонструвалися телевізійні зображення з різними значеннями об'єктивних показників. Зображення спостерігалися при заданих рівнях яскравості екрану і фону, глядачі перебували на певній відстані від телевізійних моніторів. Завдання спостерігачів полягала в оцінці якості зображення з використанням деякої шкали, оцінці передував детальний інструктаж.
Суб'єктивні вимірювання найширшим чином використовувалися і використовуються при дослідженнях та розробці нових систем, але вони мають велике значення і в практиці телевізійного мовлення. Ця обставина обумовлена тим, що суб'єктивна оцінка дає пряму інтегральну оцінку якісних показників зображення (строгу формальну при використанні стандартних методик і швидку візуальну оцінку при звичайному спостереженні телевізійного зображення). Візуальна оцінка якості зображення широко використовувалася в аналоговому телебаченні і, безсумнівно, буде не менш широко застосовуватися в цифровому мовленні. Введення компресії в телевізійне мовлення змусило звернути на суб'єктивні вимірювання ще більшу увагу, оскільки об'єктивні непрямі вимірювання виявилися придатними тільки для оцінки аналогових елементів і лінійних цифрових ланок цифрових телевізійних систем. Як було зазначено вище, в системах мовлення з компресією якість не залишається постійною, воно залежить від просторово-часової структури телевізійного зображення, тобто від його насиченості дрібними деталями і динамічності. Мінливість якості в часі робиться ще більш помітним у системах зі статистичними мультиплексування.
Залежність якості від властивостей зображення і його зміни в часі, поява багатьох нових видів спотворень і перешкод викликали необхідність внесення деяких змін в методи суб'єктивних вимірів, регламентованих Рекомендацією ITU-R BT.500. потребували доробок і змін, наприклад, правила вибору тестових послідовностей і їх тривалість, умови порівняння тестового зображення з опорним, методики обробки результатів експериментів.
Стали інтенсивно розроблятися методи безперервної візуальної оцінки якості відео послідовностей. Методи суб'єктивних вимірів широко використовувалися при дослідженні та розробці систем компресії MPEG-2. Ретельно проведені експерименти за суб'єктивною оцінкою дозволили довести, що при швидкості потоку даних, що дорівнює 6 Мбіт/с, якість декодованого зображення знаходиться на рівні студійної якості в композитних (NTSC / PAL / SECAM) системах стандартної чіткості. При швидкості потоку даних 9 Мбіт/с декодувати зображення в системі MPEG-2 еквівалентно за своїми якісними показниками компонентного (Y, RY, BY) зображенню, спостережуваному на студійному моніторі.
Результати цих експериментів стали одним з факторів, що визначили прийняття компресії MPEG-2 для цифрового телевізійного мовлення. Сучасні методи суб'єктивних вимірів володіють рядом безсумнівних переваг. Вони дозволяють отримувати оцінку якості та статичних і динамічних зображень. Вони придатні для отримання порівняльної оцінки якісних показників зображення, створюваного різними цифровими і аналоговими системами, результат оцінки являє собою скалярну величину у вигляді усередненої глядацької оцінки, що дає інтегральну оцінку ефективності систем щодо здатності створювати зображення високої технічної якості. Додатковим чинником, що підсилює роль суб'єктивної оцінки якості, є те, що тільки з використанням суб'єктивних вимірів можна отримати вихідні дані для створення моделей зору і розробки методів об'єктивної оцінки якості, результати яких добре відповідають візуальній оцінці. Цей фактор сприяє активізації досліджень в області суб'єктивних вимірів якості телевізійного зображення.
Однак експерименти за суб'єктивною оцінкою якості вельми трудомісткі і пов'язані з великими витратами часу. Результати експериментів відрізняються великим розкидом, вони схильні до впливу великого числа важко контрольованих факторів. Суб'єктивні виміри не можуть використовуватися для цілей моніторингу. Це призводить до необхідності розробки методів об'єктивних вимірів, придатних для оцінки якості зображення, створюваного цифровими телевізійними системами з компресією. Потреба в об'єктивних вимірах особливо велика при вимірах під час передачі телевізійних програм. Об'єктивні вимірювання традиційні випробувальні сигнали і статичні тестові таблиці легко піддаються компресії MPEG-2 без помітних спотворень і не дозволяють отримати оцінку якості роботи кодера компресії в реальних умовах.
Для об'єктивних вимірювань в системах з компресією в якості тестових зображень стали використовуватися натуральні сцени і програмні матеріали. Порівняння оригінальних матеріалів з послідовностями, що пройшли кодек компресії, дозволяє дати оцінку рівня спотворень компресії. Методи, в яких використовується порівняння зображень на вході і виході кодека компресії, прийнято називати двосторонніми.
Інший можливий підхід до оцінки якості не вимагає наявності оригіналу і пов'язаний з виявленням артефактів компресії на декодованому зображенні і оцінкою їх величини. Методи, що розвиваються у рамках цього підходу, називають односторонніми. Слід мати на увазі, що об'єктивні методи не дозволяють безпосередньо вимірювати абсолютне значення якості зображення, вони лише дозволяють оцінити відмінності в рівнях якості зображення на виході декодера компресії і деякого опорного зображення або відеопослідовності. У двосторонніх методах опорне зображення присутнє в явному вигляді, а в односторонніх воно мається на увазі (опорним може вважатися зображення без артефактів).
Результати об'єктивних вимірів повинні добре узгоджуватися з результатами суб'єктивних вимірів для тієї ж системи і тих же тестових послідовностей або програмних матеріалів. Ця вимога зумовлює головну складність розробки методів об'єктивних вимірювань. Двосторонні методи об'єктивних вимірів зіставлення тестованого декодованого зображення з опорним, в якості якого часто використовується оригінал, тобто вхідне зображення кодера, виконується найчастіше одним з двох методів: порівнянням зображень і порівнянням властивостей зображень. При порівнянні зображень зазвичай обчислюють різницю опорного та тестової зображень. Чим менше різниця, тим менше спотворення компресії, чим більше різниця - тим більше спотворення. Обробка отриманого різницевого масиву спрямована на отримання деякої міри відмінностей, яка повинна досить добре корелюватися з різницею в рівнях якості порівнюваних зображень. В якості запобіжного спотворень можна використовувати, наприклад, PSNR - відношення розмаху сигналу до середньоквадратичного значення відмінностей між оригіналом і декомпресованого зображенням.При обчисленні середньоквадратичного значення відмінностей усереднення виконується в рамках деякого тимчасового інтервалу, наприклад, в рамках кадру або групи зображень.
З практики аналогового телебачення добре відомо, що середньоквадратична величина відхилення не завжди відповідає суб'єктивним сприйняттям відмінностей. В аналоговому телебаченні для отримання кращої відповідності візуальною оцінкою вводяться вагові функції, що враховують особливості зорового сприйняття перешкод і шумів і реалізовуються за допомогою зважують фільтрів і кіл. Подібним чином вирішується ця проблема і в системах з компресією.
Для досягнення високої точності відповідності суб'єктивним сприйняттям сигнал різниці між оригіналом і декодувати зображенням може піддаватися обробці з використанням моделей зору. Ці моделі враховують різну помітність спотворень і артефактів компресії, які володіють різним частотним спектром, різною яскравістю і кольоровістю. У моделях може враховуватися залежність артефактів від фону, на якому вони присутні, оскільки відомо, що спотворення, перешкоди і артефакти компресії (наприклад, блокова структура) більш помітні на ділянках зображень з плавно мінливою яскравістю і на чітких протяжних контурах і менш помітні на ділянках зображення , насичених дрібноструктурні деталями. У моделях може використовуватися також обробка з метою переходу до шкал відліку суб'єктивних величин, коли замість PSNR обчислюється кількість порогових, або ледь помітних, збільшень перешкод при переході від оригіналу до декодувати зображенню (це означає перехід до шкалою рахунки одиниць). Моделі можуть передбачати калібрування розрахованої заходи відмінностей (наприклад, PSNR) з метою переходу до шкалою категорій якості (відмінно, добре і т. д.).
Дослідження показали, що показник PSNR добре працює в системах з обмеженим вибором параметрів кодування, наприклад, коли змінюється тільки швидкість потоку стиснених даних за рахунок вимірювання фактора квантування. Використання моделей зору при обчисленні заходи відмінностей декодованого зображення та оригіналу покращує збіг з результатами суб'єктивних вимірів, проте всі методи мають меншою точністю, коли мова йде про порівняння систем з різними алгоритмами компресії, а також у разі конкатенації кодеків, тобто при оцінці якості зображення, пройшов через кілька кодеків компресії. У методах порівняння властивостей обчислюються просторові і тимчасові характеристики оригіналу і декодоване зображення. Обчислені характеристики потім порівнюються, а результат порівняння визначає міру погіршення якості декодованого зображення по відношенню до оригіналу. Цей метод вимагає передачі в точку вимірювання порівняно невеликого обсягу даних, що розширює його сферу застосування. В якості обчислюється характеристики зображень може використовуватися так звана критичність, що характеризує «стисливість» зображення в кодері компресії. Наприклад, для досягнення постійної швидкості потоку стиснених даних зображення, насичені дрібними деталями, вимагають більш грубого квантування, ніж зображення без дрібних деталей. Це означає, що дрібноструктурні зображення є більш важко стискати, більш критичними по відношенню до спотворень компресії.
Чим більша критичність, тим більше проявляються спотворення компресії при одній і тій же швидкості потоку стиснених даних. Двосторонні методи оцінки якості зображення не надто підходять для цілей моніторингу, коли оригінал недоступний. Однак ці методи з успіхом використовуються в дослідницьких цілях, в лабораторних умовах, в рамках замкнутої телевізійної системи. Можна позбутися від необхідності передавати оригінал в точку вимірювання, якщо порівнювати декодувати зображення з точною копією кодованої відеопослідовності замість оригіналу (цей метод може використовуватися тільки при вимірах поза телевізійних програм, коли кодується відо...