МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИНАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ«ЛЬВІВСЬКА ПОЛІТЕХНІКА»
ІКТАкафедра БІТ
/
З В І Т
до лабораторної роботи №3
з курсу: «Архітектура комп’ютерних систем»
на тему:
«КОНКУРЕНТНЕ ВИКОНАННЯ МАШИННИХ ІНСТРУКЦІЙ»
Варіант №18
Львів 2022
Мета роботи - опанувати техніку паралельного виконання машинних інструкцій на рівні апаратури.
Завдання
Засобами архітектурного симулятора WinMIPS64 дослідити на прикладі фрагментів програмного коду можливості паралельного опрацювання машинних інструкцій на рівні апаратури та позитивні ефекти, що при цьому досягаються. За результатами проведених лабораторних досліджень оформити звіт та захистити його.
Виконання роботи
Для завдання дано наступний код програми:
.text
div.d f7,f9,f10
mul.d f2,f4,f3
sub.d f7,f7,f4
ld r1,78(r0)
add.d f4,f5,f6
halt
Запустимо код програмі симуляторі WinMips64:
/
Як результат, ми бачимо що наша програма відпрацювала за 33 цикли, виконуючи 6 інструкцій, тому на одну інструкцію припадає 5,5 циклів для її виконання. Також бачимо, що присутні 22 пригальмовування RAW (Read after write). У даному коді є проблеми, які не дозволяють паралельно виконувати усі потрібні функції. Так як функція ділення виконується за 28 кроків, адже це досить специфічний алгоритм виконання цієї задачі, то затримуючи змінні в регістрах, а саме працюючи з ними, інші функціїї не мають доступу до них. Наприклад, фунція sub чекає на комірку, яка зайнята функцією div. Так само mul займаючи досить багато часу, не дає доступу до комірки функціям sub і add. Тому спробуємо порефакторити даний код змінивши послідовність початку виконання фунцій. Функцію ділення поставимо на 2 місце, mul на 4, sub на 1 та add на 3. І отримаємо наступний код програми:
.text
sub.d f7,f7,f4
div.d f7,f9,f10
ld r1,78(r0)
add.d f4,f5,f6
mul.d f2,f4,f3
halt
7 цикл – 1 RAW
/
8 цикл – 2 RAW
/
29 циклів – 3 RAW
/
В результат, ми бачимо що наша програма відпрацювала за 29 циклів, (що на 4 цикли менше ніж у попередній), виконуючи 6 інструкцій, тому на одну інструкцію припадає 4,833 циклів для її виконання. Також бачимо, що присутні 3 пригальмовування RAW (Read after write). Результат значно кращий.
Висновок:
Під час виконання цієї лабораторної роботи я опанував техніку паралельного виконання машинних інструкцій на рівні апаратури, провів тестування коду даного за завданням, покращив код для його швидкодії та добився більш кращого результу, а саме:
Спочатку було 33 цикли, стало 29;
Спочатку було 22 RAW, стало 3;
Спочатку було CPI – 5,500 , стало – 4,833.