Представлены методические аспекты анализа данных, реализованного в статистическом пакете SPSS. Дается краткое изложение содержания методов и анализа получаемых статистических результатов с демонстрацией в командах и выдаче пакета. Возможности применения методов математической статистики проиллюстрированы на социологических данных.
Методическое пособие предназначено студентам, специалистам, желающим познакомиться с работой пакета и оценить возможности реализованных в нем методов.
Предисловие
Издание данного учебного пособия финансируется грантом в рамках проекта. В книгу включены материалы по проекту финансируемых грантом Российского фонда фундаментальных исследовании 00-06-80221.
Методы и программные средства анализа данных универсальны и могут быть использованы в различных областях науки - в социологии, экономике, медицине, биологии, криминалистике и др. Однако применение анализа данных в каждой области имеет свои особенности, связанные со структурой данных, содержанием задач и интерпретацией результатов. В данном методическом пособии мы ставили своей целью изложить анализ данных для социологов.
В основе изложения - пакет обработки и анализа социологических данных SPSS - Statistical Package for Social Science. Пакет содержит все основные разделы анализа данных, и во многих зарубежных и отечественных университетах является базовым для преподавания анализа данных студентам гуманитарного направления. У нас нет возможности изложить всю информацию о пакете, поэтому мы затрагиваем лишь ключевые моменты практического анализа данных с его использованием.
Учебные материалы, предоставляемые официальным дилером SPSS в России (http://www.spss.ru) включают три учебника - Руководство пользователя SPSS, Книга 1 [1] Руководство пользователя SPSS [2] и Руководство по применению SPSS [3] по многим разделам содержат достаточно полную методику применения пакета, поэтому мы во многих случаях за дополнительной информацией отправляем к этим руководствам. Однако они ориентированы преимущественно на работу с пакетом в режиме диалога. В нашем учебном пособии баланс от диалогового режима смещен на использование языка программирования заданий для SPSS, поскольку серьезная работа с данными требует определенных навыков и в этой области. При подготовке материалов в этом направлении использовался путеводитель по синтаксису SPSS [4]. Кроме того, нами использовалась интенсивно документация SPSS по регрессионному анализу [5], точным статистическим тестам [6], документацию по кластерному анализу и многомерному шкалированию [7], другие материалы по SPSS.
Следует заметить, что практически ежегодно выпускается новая версия SPSS, постоянно изменяется дизайн, появляются новые программы и возможности работы с пакетом. В настоящий момент мы ориентируемся на 9 версию, но считаем главным донести до читателя основные принципы работы с SPSS, основные команды управления его работой, которые остаются практически неизменными уже в течение 20 лет. Конечно, пытаемся, также, не упустить и новые его возможности.
Большинство статистических пакетов снабжено такими же основными методами, имеют аналогичную структуру данных, поэтому освоение SPSS даст должный навык, полезный для компьютерного анализа данных вообще.
Кроме того, в работе использованы общеизвестные учебники по статистическому анализу данных, но, к сожалению не всегда доступные российскому читателю учебные пособия, как курс эконометрического анализа Грина [8], настольная книга по статистической методологии - фундаментальный труд американских авторов [9], объемный учебник по прикладному статистическому анализу С.А.Айвазяна и В.С.Мхиторяна [10], учебник Ю.Н.Толстовой [11], имеющий методологическое значение.
В книгу включен также включен материал, связанный с анализом взаимосвязи между неальтернативными вопросами [12]. Здесь мы попытались простым языком раскрыть сложную тему анализа множественных сравнений в анализе значимости связи по таблицам для неальтернативных вопросов.
Глава 1. Информация, обрабатываемая статистическим пакетом
1.1. Анкетные данные
В большинстве социологических исследований анализируется анкетная информация. Условно эти данные можно представить в виде матрицы, строкам которой соответствуют объекты (анкеты), а столбцам - признаки (отдельные вопросы и подвопросы анкеты). Синонимом слова "признак" является слово "переменная", в дальнейшем мы будем употреблять эти термины равноправно.
В современных статистических пакетах такую информацию принято представлять в виде таблицы. Обычно обрабатывается один файл данных, визуально это напоминает таблицу Excel (один лист).
При кодировании информации удобно пользоваться определенными правилами заполнения матрицы в соответствии со структурой обрабатываемой анкеты.
Пример 1.1.
Анкета обследования жалоб и проблем населения (шутка)
1. Пол
мужской
Женский
2. Возраст …………
3. Проблемы (укажите 3 основные проблемы):
1. Учеба
2. Свободное время
3. Любовь
4. Музыка
4. Жалобы:
1. Служба
2. Здоровье
3. Зарплата
4. Жена
5. Собака соседа
Матрица данных, собранных на основании такой анкеты, изображена на рис.1.1. Пол здесь закодирован в соответствии с содержимым анкеты кодами 1 - мужчины, 2 - женщины; возраст непосредственно введен в данные; проблемы закодированы в трех переменных - указаны коды обведенных при опросе подсказок; для каждой жалобы отведена своя переменная.
N Анкеты
1. Пол
2. Возраст
3. Проблемы:
4. Жалобы:
1. Служба
2. Здоровье
3. Зарплата
4. Жена
5. Собака соседа
1
1
20
1
4
.
1
0
0
0
1
2
1
25
2
3
4
1
0
1
0
1
3
2
34
1
2
4
1
0
0
0
1
4
1
18
1
2
.
0
0
0
0
1
.
.
.
.
.
.
.
.
.
.
.
Рис.1.1. Структура матрицы - данных обследования жалоб и проблем населения
На протяжении всего текста мы будем иллюстрировать работу пакета на более серьезном примере анкеты "Курильские острова", текст которой приведен в приложении 1, кроме того, иногда мы будем привлекать для анализа данные Российского мониторинга экономического положения и здоровья населения (RLMS, [13]).
1.2. Типы переменных
Типы переменных можно рассмотреть с технической точки зрения и в аспекте применения математических методов.
Типы кодирования переменных.
В статистическом пакете SPSS предусмотрено 8 типов кодирования переменных. Подробнее о них можно узнать в [Руководство пользователя. Книга 1. - М.: Статистические системы и сервис, 1995]. Мы остановимся лишь на строчных (STRING) и числовых (NUMERIC) переменных.
Строчные переменные используются достаточно редко, например, для введения ответов на открытые вопросы или фамилий респондентов, если имеется такая возможность и в них есть необходимость, например переменная dj56.1.1 8-й волны RLMS содержит ответы на вопрос "В чем состояла эта Ваша работа?"
Но обычно, при внесении в компьютер информации для статистической обработки, ответы на вопросы анкеты кодируются числами. Хотя с формальной точки зрения практически любая обрабатывающая программа может использовать эти цифры независимо от того, кодируется ли профессия, возраст или сведения о цвете глаз. Различные методы анализа данных ориентированы на данные определенного типа. Для получения интерпретируемых результатов перед применением программы исследователь должен определить тип обрабатываемых соответствующим методом переменных.
Тип шкалы измерения переменных.
Формируя данные, исследователь ставит в соответствие значениям переменной, имеющей содержательный смысл ("пол - мужской", "профессия - учитель"), числовые значения. Такое соответствие называется шкалой измерения переменной. В зависимости от свойств переменной выделяют шкалы: номинальную, ординальную (ранговую), интервальную и шкалу отношений.
Неколичественные шкалы
НОМИНАЛЬНАЯ шкала является самым "низким" уровнем измерения. В этом случае используется только равенство или неравенство значений. Примером таких переменных являются "пол", "профессия".
ОРДИНАЛЬНАЯ или РАНГАВАЯ. Часто значения признака выражают степень проявления какого-либо свойства и могут быть упорядочены. Например, работа "интересна", "безразлична" или "не интересна". Такая шкала называется ранговой или ординальной.
Количественные шкалы:
ИНТЕРВАЛЬНАЯ шкала предполагает, что можно определить не только порядок значений, но и расстояние между значениями. Эта шкала, однако, такова, что не имеет смысла рассматривать, во сколько раз одно значение больше другого. Пример: шкала измерения температуры по Цельсию.
ШКАЛА ОТНОШЕНИЙ в дополнение к свойствам интервальной шкалы позволяет измерять пропорции значений. Например, мы можем смело заявить, что зарплата в 1000$ вдвое выше зарплаты в 500$.
Техника анализа переменных, измеренных в количественных шкалах (интервальной и шкале отношений) обычно одинакова. В соответствии с типом шкалы измерения переменные относят к номинальным, ординальным (ранговым) и количественным типам переменных.
К особому типу относят переменные, имеющие два ответа - "да" и "нет" (например, "Имеете ли Вы телевизор?"). Эти переменные называют дихотомическими. Их удобно кодировать цифрами 1 ("да") и 0 ("нет"). Эти переменные представляют простейший вид номинальных переменных, они выражают количество (0 или 1) и поэтому часто используются в количественном анализе.
Такая классификация переменных несколько упрощает действительность. Например, переменная "время суток" при исследовании бюджета времени имеет "кольцевую" структуру, поскольку 0 часов эквивалентно 24 часам.
Еще пример: ответ на вопрос о доходах от личного подсобного хозяйства может представлять определенную сумму, быть ответом "не имею подсобного хозяйства" или ответом "не знаю" - здесь значения только частично являются количественными и упорядоченными. При кодировании значений таких значений используются специального вида коды, которые в принципе не могут встретиться в данных, например в RLMS "затрудняюсь ответить", "отказ от ответа" и "нет ответа" в вопросе о весе респондента кодируются кодами 997, 998 и 999 соответственно. Не забудьте использовать специальные команды SPSS (см. ниже команду Missing values), чтобы объявить эти числовые значения кодами неопределенности, чтобы по ошибке не получить средний вес респотдента в больше 300 килограммов!
Неальтернативные признаки
Еще более сложны данные по так называемым неальтернативным (многозначным) вопросам. Часто встречаются вопросы: "Какие варианты ответов, предлагаемых анкетой, Вам кажутся разумными?". В анкете на такой вопрос предлагается несколько ответов. В этих случаях признаки принято называть неальтернативными или многозначными. Неальтернативный признак можно кодировать одним из двух способов:
1. Для каждой подсказки заводится переменная, которая соответствует столбцу матрицы и кодируется с помощью 0 и 1. В частности, для ответов на четвертый вопрос анкеты примера 1 отводится 5 столбцов матрицы данных, они заполняются нулями и единицами (рис.1). Нередко вместо кодов 0 и 1 используются другие коды, тогда в программах получения таблиц по неальтернативным вопросам нужно специально указывать код, соответствующей ответу "Да". Например, вопрос может быть задан следующим образом:
Согласны ли вы с тем, что
А. Нужна новая конституция?
1. Нет 2. Да 3. Не знаю
Б. Нужно переизбрать Думу?
1. Нет 2. Да 3. Не знаю
В. Нужен новый президент
1. Нет 2. Да 3. Не знаю
Г. . . . . . .
В этом случае дихотомия определяется кодом 2 и остальными кодами.
Такое представление неальтернативного признака в виде переменных, соответствующих подсказкам, называется дихотомическим. В ряде программ SPSS для обозначения этого представления данных используется текст Dichotomies counted value.
2. Кодирование порядковых номеров подсказок из текста анкеты, указанных респондентом (3 группа столбцов матрицы из примера 1.1. рис.1.1). Это кодирование в виде списка. В этом случае количество столбцов матрицы, отведенных для ответов на вопрос, может быть меньше, чем количество подсказок в этом вопросе, оно зависит от числа возможных ответов. Например, для третьего вопроса анкеты из нашего примера достаточно отвести три столбца матрицы данных. Для обозначения этого способа кодирования используется ключевое слово Categories.
В приведенной выше анкете предлагается несколько вариантов ответов на третий и четвертый вопросы; ответы респондента на них кодируются в нескольких позициях строки матрицы данных.
1.3. Имена переменных и метки, коды неопределенных значений
Каждый столбец данных должен быть поименован, при этом имеются короткие имена для удобства задания команд и длинные имена, удобные для выдачи результатов расчетов. В приведенной анкете можем обозначить признаки следующим образом:
v1, v2, v3s1, v3s2, v3s3, v4d1, v4d2, v4d3, v4d4, v4d5
или: sex, age, problem1,…,problem3, compl1,… compl5.
Меткой переменной может быть и непосредственная формулировка вопроса и переработанный текст вопроса , например, "Назовите, пожалуйста, ваш пол" или "Пол".
Метки значений - это текстовая расшифровка кодов значений переменных (для пола: 1 - "мужской", 2 "женский").
Коды неопределенных значений. Нередко необходимо исключить из анализа коды переменных, соответствующих неопределенным значениям. Эти коды должны быть заданы заранее.
Ниже мы увидим, каким образом указанная информация о метках и неопределенных значениях заносится в данные.