Галкин А. П.
 
Курсы лекций
Темы семинаров
Самостоятельная работа студентов
Социологические исследоваения
Публикации Галкина
Публикации Гуляихина
Новости
Гостевая
Контактная информация
статистика посещений
счетчик посещений сайта

Программы систематизации и анализа данных социологического исследования

 

Пакет программ ОСА.

1. Установка имени рабочего каталога   3

2. Установка имени массива анкет   3

6. Удаление признака   3

9. Редактирование массива анкет на диске   3

12. Вторичная обработка данных   3

13. Экспорт данных   3

14. Импорт данных   3

11. Ввод нового паспорта   3

8. Ввод или добавление в имеющийся массив анкет   5

10. Объединение двух массивов анкет   5

3. Расчет одномерного распределения   5

4. Расчет двумерного распределения   5

7. Подключение/создание нового фильтра   7

5. Формирование нового признака   7

Пакет программ SPSS

Составления паспорта   8

Ввод данных. 9

Обработка данных. 9

Статистический анализ данных. 9

Табличный редактор Excel. 13

Задания по методам статистического анализа данных   14

Ответы по заданиям    16

Расчет выборки   17

Формулы расчета коэффициентов   20

 

Одной из самых распространенных среди отечественных исследователей программ обработки социологической информации является ОСА ('Основы социологического анализа'), разработанная А. П. Горбачиком (г. Киев) в конце 80-х гг. прошлого века. С ее помощью можно обрабатывать анкеты, бланки стандартизированного интервью, карточки контент-анализа и другую формализованную информацию. На сегодняшний день программу можно назвать морально устаревшей, тем не менее, ее простота, небольшая емкость (весь пакет вместе с массивом данных умещается на одной дискете), а также совместимость с любой версией DOS способствуют ее популярности, особенно, когда необходимо быстро обработать данные.

К недостаткам программы следует отнести несовместимость с табличными формами Windows и ограниченность средств статистического анализа. Для серьезного статистического анализа приходится прибегать к пакетам SPSS, Stadia, Statistica  или, по крайней мере, табличному редактору Excel. Программа не рассчитана на многомерную корреляцию (хотя она возможна при использовании фильтров), что необходимо учитывать при составлении и кодировке методического инструментария. В анкетных (а тем более планшетных) опросах часто используются табличные формы, но программа рассчитана на линейную подачу вопросов, причем каждый имеет собственную нумерацию. В качестве примера можно привести следующий случай:

Фрагмент анкеты: : 10. Как часто Вы покупаете следующие продукты? Пометьте в соответствующей колонке.

 

Каждый день

Раз в два дня

Раз в неделю

По праздникам

Никогда

Хлебобулочные изделия

 

 

 

 

 

Молочные продукты

 

 

 

 

 

Мясные, рыбные продукты

 

 

 

 

 

Овощи и фрукты

 

 

 

 

 

Деликатесы

 

 

 

 

 

Вид паспорта:

10. Как часто Вы покупаете хлебобулочные изделия?

1.       Каждый день

2.       Раз в два дня

3.       Раз в неделю

4.       По праздникам

5.       Никогда

11. Как часто Вы покупаете молочные продукты?

1.       Каждый день

2.       Раз в два дня

3.       Раз в неделю

4.       По праздникам

5.       Никогда

12. Как часто Вы покупаете?

1.       Каждый день

2.       Раз в два дня

3.       Раз в неделю

4.       По праздникам

5.       Никогда

:

То есть один вопрос анкеты в паспорте распадается на несколько. В данном случае следующий вопрос должен иметь N 15, а не N 11. Это следует учитывать при кодировке планшетов стандартизированного интервью, карточек контент-анализа, чтобы избегать механических ошибок при вводе (в анкетах подобная нумерация нецелесообразна, она путает респондентов).

В программе отсутствуют и альтернативные скачкообразные переходы. Это также легче показать на гипотетическом примере:

Фрагмент анкеты: : 15. Нравятся ли Вам продукты питания, изготовленные местной фабрикой переработки и утилизации отходов производства?

1. Да

2. Нет

3. Не знаю, не ел(а)

 

 

 

 

 

 

16. За что нравятся?

17. За что не нравятся?

1.       У них изысканная форма

2.       Удачно подобрана цветовая гамма

3.       Другое (укажите)

1.       У них неприятный запах

2.       От них болит живот

3.       Другое (укажите)

В паспорте вопросы пойдут последовательно один за другим, и один из них следует помечать как 'Не ответ'.

 

Пакет программ ОСА запускается файлом Soc.exe. Контекстное меню программы включает 14 командных строк, многие из которых не имеют практической значимости. Среди последних следует отметить:

1. Установка имени рабочего каталога

Актуальна в том случае если программа и паспорт находятся в разных каталогах (папках) или в одном каталоге находится несколько паспортов и массивов данных. Обычно этого не делают (каждый раз приходится набирать полную директорию), а заводят для каждого паспорта и соответствующего ему массива данных собственный каталог, в который копируют файлы программы (ее емкость менее 300 кВ).

2. Установка имени массива анкет

То же самое.

6. Удаление признака

С помощью этого пункта можно удалить любой признак (вопрос с вариантами ответов) из паспорта, после чего все введенные в соответствии с этим паспортом данные будут утеряны.

 9. Редактирование массива анкет на диске

Искать подобным образом ошибки ввода затруднительно (легче снова ввести весь массив): другое дело, если по отдельным пунктам полученный результат не устраивает:

12. Вторичная обработка данных

Этот пункт меню не функционирует.

13. Экспорт данных

Переводит символы кириллицы в символы латиницы. Например, 'Не знаю' - 'Ne Znau'. Это позволяет читать тексты в SPSS (в противном случае отражается набор непонятных символов - кодировка старая). Однако табличные формы SPSS и других современных пакетов не воспринимают массивы программы ОСА. Они помещают все данные одной строкой в отдельно взятые ячейки.

14. Импорт данных

Импортируются данные аналогичного формата.

Другие пункты меню имеют практическую значимость, их следует рассмотреть подробнее:

11. Ввод нового паспорта

Разрабатывая макет (эскиз) анкеты или другого методического инструментария, необходимо задуматься и о формате паспортных данных, ведь именно в этом формате будет систематизирована эмпирическая информация. Количество признаков в анкете и в паспорте, как указывалось, не всегда совпадает. Зачастую паспорт форматируется в более развернутом виде, нежели методический инструментарий. Так, в приведенном выше примере о частоте покупок различных продуктов питания, можно одновременно по каждому пункту задавать по два признака: 'частота покупки хлебобулочных изделий' (значения: каждый день, раз в неделю и т.д.) и признак 'какие продукты покупаются каждый день' (значения: хлебобулочные изделия, молокопродукты и т.д.). Тогда при анализе одного и того же вопроса можно получить совершенно разные индикаторы (в первом случае - в большей части индикатор материального положения, во втором - структуры питания). Это позволяет более детально анализировать собранный материал с помощью двумерных (многомерных) матриц (корреляционных таблиц).

Часто подобную процедуру используется для анализа одного и того же показателя как количественного и качественного признака (например, возраст, курс обучения, стаж работы), что требует внесения в паспорт два разнотипных признака (метрический и номинальный). Так, если задать показатель 'возраст' в метрической и номинальной (например, 16-28, 29-40 и т.д.) шкалах, то группируя респондентов по возрастным группам (номинальная шкала) полезно знать среднее арифметическое и коэффициент вариации в каждой группе. Смещение к крайним позициям отрицательно сказывается на достоверности полученной информации. Поэтому, если в анкете указан возраст 26 лет, вводится '26' по метрическому признаку и '16-28' - по номинальному.

Паспорт (как и массив анкет) представляет собой текстовой файл MS-DOS, разбитый на строки. Он может набираться и редактироваться в любом редакторе DOS (Edit, Lexicon, WD). Однако лучше пользоваться данным пунктом контекстного меню, т.к. программа автоматически сокращает количество знаков и ставит табуляцию (если табулирование не совпадает, то не получается вывод табличных форм). Первоначально программа просит указать наименование паспорта (до 8 символов). Если не задавать директорию, то паспорт будет записываться в тот же каталог с расширением *.DCL. Далее появляется текст: 'Введите имя признака' и номер признака 'Признак #1'. Указав название признака, следует нажать на клавишу 'Enter'. После этого программа требует ввести текст вопроса. Этого обычно не делают, но нужно ввести хотя бы одну букву. Далее программа предлагает выбрать шкалу из 4 вариантов:

1)            Метрическая - обычная метрическая шкала, куда вводится любое числовое значение. Для признаков метрической шкалы рассчитываются: минимум, максимум, среднее арифметическое, среднеквадратическое отклонение и коэффициент вариации (описательная статистика без моды, асимметрии, эксцесса и т.д.). Введя число, следует нажать на клавишу 'Enter'.

2)            Порядковая - какой-то симбиоз порядковой, ранговой и номинальной шкал. Ее работу также легче показать на гипотетическом примере вопроса: '18. Как Вы относитесь к продукции местной фабрики переработки и утилизации отходов производства?' с вариантами ответов: 2 - плохо, 3 - нейтрально, 4 - хорошо, 5 - души не чаю. В этой шкале программа автоматически предлагает числовые значения в возрастающем порядке, начиная с единицы: 1, 2, 3:, которые можно изменять по своему усмотрению на любые целые положительные числа в возрастающем порядке, но не обязательно последовательно (например, 10, 13, 25:). Эти числа впоследствии определяются и как код альтернативы. Для этого вопроса нам необходимы числа: 2, 3, 4 и 5. К каждому числовому значению требуется ввести текстовое. Каждый ввод подтверждается нажатием на клавишу 'Enter'. После того, как будут введены и подтверждены все значения, следует нажать на клавишу 'Esc' - переход к следующему признаку. Для данного типа шкалы высчитываются: минимум, максимум, среднее арифметическое, среднеквадратическое отклонение и коэффициент вариации, а также распределение (в табличной форме) в абсолютном (числовом) и процентных (к опрошенным и к ответившим) значениях. В принципе она может заменить одновременно метрическую и номинальную шкалы, но только в том случае, если количественная переменная имеет немного значений и измеряется в целых положительных числах (курс обучения).

3)            Номинальная - шкала для качественных признаков с несовместимыми альтернативами (пол). Она выводится в качестве распределения по группам (в табличной форме) в абсолютном (числовом) и процентных (к опрошенным и к ответившим) значениях.

4)            Номинальная с совместимыми альтернативами - то же, но предусматривает одновременный выбор нескольких вариантов ответа. Код альтернативы для номинальных шкал программа предлагает автоматически, начиная с единицы.

После выбора шкалы и ее заполнения, программа предлагает заполнить текст комментария. Этого можно не делать, а с помощью клавиши 'Esc' перейти к следующему признаку. Таким образом вводятся все признаки паспорта.

8. Ввод или добавление в имеющийся массив анкет

При выборе этого пункта меню, программа предложит назвать имя массива (если назвать уже имеющееся, то новые данные будут добавляться), которому присвоит расширение *.FRM, а также имя паспорта. Ввод данных достаточно удобен. Он осуществляется последовательно по признакам путем введения числа в метрической и кода альтернатив в порядковой и номинальных шкалах (текстовые значения выводятся на экране). Ввод подтверждается нажатием на клавишу 'Enter'. Если присутствует ошибка, то компьютер сообщит об этом (можно сбиться с вопросов, как часто бывает и, если у признака 'пол' пытаться ввести альтернативу большую 2, то потом приходится возвращаться к месту сбоя). В случае отсутствия ответа на вопрос, переход к следующему признаку осуществляется нажатием клавиши 'F1'. Замеченную ошибку ввода можно исправить либо, сбросив всю информацию анкеты клавишей 'F2', либо возвращаясь по пунктам назад с помощью клавиши 'PgUp'. После набора анкеты программа переходит к следующей, прекращение ввода осуществляется клавишей 'Esc'.

10. Объединение двух массивов анкет

Сформированный паспорт можно растиражировать на несколько компьютеров, что позволяет вводить данные опроса сразу нескольким людям. Впоследствии возникает необходимость объединения всех данных в единый массив, что и осуществляется с помощью этого пункта.

3. Расчет одномерного распределения

При выборе этого пункта П/П ОСА запрашивает имя паспорта, имя массива, а также номера признаков, которые требуется рассчитать. Обычно указываются все (например, 1-30).  Данные порядковой и номинальных шкал в можно ранжировать в убывающем порядке. Полученную информацию можно сохранить отдельным файлом (клавиша 'F4'). Этот файл импортируется редактором 'Word' как текст Dos, разбитый на строки.

4. Расчет двумерного распределения

Здесь также следует указать номера признаков, которые требуется рассчитать. При этом указывается один или несколько признаков по горизонтали и по вертикали (не следует указывать сразу все признаки - программа такой объем информации сразу обработать не сможет). Если признаки идут не последовательно, их номера отделяются пробелом. При указании номеров признаков следует помнить о сочетаемости шкал. Данные метрической и номинальной шкал между собой не коррелируются.

Если оба признака количественные, то выводятся их одномерные данные (минимум, максимум, среднее арифметическое, среднеквадратическое отклонение и коэффициент вариации) и коэффициент линейной корреляции К. Пирсона. Если один признак оформлен в метрической шкале, а другой в порядковой, то исчисление производится в числовых значениях (т.е. аналогично). Помимо этого, выводится распределение метрического признака по альтернативам (рангам) порядкового. Пример:

Признак #14 Отношение к продукции местной фабрикой переработки и утилизации отходов производства?

Признак #24 Курс обучения

Всего анкет 10. Без ответа 0.

Коэффициент корреляции:   -0,23244

Знач. #14

Част. #14

Min #24

Max #24

Средн. #24

СрКв. #24

КоВар. #24

2

3

1.00

2.00

1.63

0.45

0.27

3

4

1.00

2.00

1.50

0.50

0.33

4

3

1.00

2.00

1.33

0.47

0.35

5

0

0

0

0

0

0

Из этой таблицы видно, что в выборку попали студенты первого и второго курсов (минимум и максимум, из которых 3 относится к продукции хорошо, 4 - нейтрально и 3 - плохо (души не чаявших - нет). Хорошо относятся 2 первокурсника и 1 второкурсник, плохо - 2 второкурсника и 1 первокурсник, нейтрально - по 2. Отсюда, отрицательная связь, впрочем, слабая. Слабость объясняется отсутствием нулей по высшему балу (помимо всего прочего). Это говорит о том, что статистические процедуры следует проводить вдумчиво. В социологических исследованиях всегда есть маловероятные варианты ответов (например, 'Другое (укажите)', но с точки зрения нормального распределения все варианты равны.

Признаки, записанные в формате номинальной шкалы сочетаются между собой и признаками порядковой шкалы в виде корреляционных (кросстабуляционных) таблиц.  Таким же образом табулируются признаки порядковых шкал между собой. В последнем случае исходные данные порядкового признака выступают уже в виде текстовых значений. В вышеприведенном примере 'Курс обучения оформлен в метрической шкале. Если этот признак оформить в порядковой шкале, то получится следующая картина:

Признак #24    Курс обучения

Признак #14 Отношение к продукции местной фабрикой переработки и утилизации отходов производства?

Всего анкет 10. Без ответа 0.

 

Не ответ

1 курс

2 курс

3 курс

4 курс

5 курс

Всего

Не ответ

0

0

0

0

0

0

0

Плохо

 

33.33

66.67

0.00

0.00

0.00

100.00

0

1

2

0

0

0

3

 

20.00

40.00

0.00

0.00

0.00

30.00

Нейтрально

 

50.00

50.00

0.00

0.00

0.00

100.00

0

2

2

0

0

0

4

 

50.00

50.00

0.00

0.00

0.00

40.00

Хорошо

 

66.67

33.33

0.00

0.00

0.00

100.00

0

2

1

0

0

0

3

 

40.00

20.00

0.00

0.00

0.00

30.00

Души не чаю

 

0.00

0.00

0.00

0.00

0.00

100.00

0

0

0

0

0

0

0

 

0.00

0.00

0.00

0.00

0.00

0.00

Всего

 

50.00

50.00

0.00

0.00

0.00

 

0

5

5

0

0

0

10

 

100.00

100.00

0.00

0.00

0.00

 

Верхняя цифра ячейки - процент горизонтального признака, нижняя - вертикального, средняя - цифровое значение распределения. В качестве средств статистического анализа таблицы ОСА указывает: количество степеней свободы, критерий хи-квадрат, коэффициенты Чупрова, Крамера и Гудмана (последний как в горизонтальной, так и в вертикальной последовательностях). Коэффициенты выводятся для той части, где респонденты дали ответы на оба вопроса (позиции 'Не ответ' и 'Всего' не учитываются) путем нажатия клавиши 'F3'.

7. Подключение/создание нового фильтра

 Эта команда весьма полезна - она позволяет получать многомерные распределения. Правда, ОСА многомерные распределения не поддерживает, поэтому сводный результат приходится по частям импортировать в другие табличные формы (чаще всего используется табличный редактор 'Excel', т.к. он обычно находится 'под рукой', а его таблицы легко встраиваются в текстовой редактор 'Word', в котором оформляются отчеты).

Отбирать анкеты из массива можно по разным критериям, но обычно используют самые простые (сложные программа не любит). Например,  требуется узнать какой процент девушек в возрасте 16-28 лет любят продукцию фабрики переработки и утилизации отходов производства. Если признак #25 у нас пол со значениями 1 - мужской, 2 - женский, а признак #23 - возраст в номинальной шкале, то есть два способа фильтрации. Можно задать логические уравнения: #25#=2 и #23#=1, тогда из всего массива анкет будут выбраны те, в которых респондент определил свой пол как женский, а возраст в пределах 16-28 лет. Одномерное распределение этих  анкет по признаку #14 даст искомое число. Можно воспользоваться лишь одним из указанных уравнений и двумерным распределением. При составлении сводных таблиц второй способ удобнее.

5. Формирование нового признака

Данная команда делает те же процедуры, что и создание фильтра. При этом к паспорту добавляется еще один признак на основе логического уравнения. Программа не любит этот пункт меню, может выдавать сообщения об ошибке, даже когда все сделано правильно. Поэтому для простых уравнений новые признаки не задают (пользуются фильтрами). Уместно формировать новый признак, когда требуются сложные аналитические группировки по изучаемым признакам. Скажем, отобрать тех, кто одновременно в восторге от цвета продукции местной фабрики, никогда не покупает хлеб, ест 5 раз в день и т.д.   Сложные аналитические группировки задаются, чаще всего, когда требуется узнать степень фрагментарности сознания респондентов, уровень противоречивости их ответов.

В целом, программа ОСА удовлетворяет требованиям статистического анализа социологической информации. Однако несопоставимость с форматами Windows и Word создает большие проблемы при создании и пополнении баз данных.

Пакет программ SPSS

Пакет обработки и анализа социологических данных SPSS - Statistical Package for Social Science содержит все основные разделы анализа данных, и является базовым для преподавания анализа данных студентам гуманитарного направления. Всю информацию о пакете см. на сайте: http://www.spss.ru. Здесь будут изложены только практические вопросы по самым необходимым командам и процедурам.

 Составления паспорта

При запуске программы SPSS открывается таблица 'Редактор данных' (Data Editor), состоящая из двух окон: Data View (данные) и Variable View (регистры). Для составления паспорта необходимо перейти в окно: Variable View. В нем вы увидите следующее меню:

Name - наименование переменной (признака). По умолчанию устанавливается Var00: Однако для удобства лучше присвоить имя. Например, 'Пол', 'Возраст' и т.д. Имена необходимо писать латинскими буквами: Pol, Vozrast etc. Максимальное количество знаков - 8. При вводе данных имя переменной высвечивается в меню таблицы. Необходимо помнить, что при шкалах с совместимыми альтернативами (когда возможно несколько вариантов ответа на вопрос) каждый возможный помнить, что при шкалах с совместимыми альтернативами (когда возможно несколько вариантов ответа на вопрос) каждый варвариант ответа кодируется как самостоятельный признак.

Type - тип переменной. Всего существует 8 типов кодирования переменных, из которых необходимы два: NUMERIC - числовое значение и STRING - строковое значение. Строковое значение используется при ответе на открытые вопросы, в остальных случаях - числовые.

Width - ширина поля значения, включая десятичные знаки. По умолчанию - 8. Для числовых значений этого более чем достаточно, для строчных - нужно ставить 200 и более.

Decimals - Десятичные цифры, т.е. количество знаков после запятой. Для номинальных и ранговых шкал они вообще не нужны. Можно ставить значение - 0. о знаков после запятой.  достаточно, для строчных - нужно

Label - метка переменной. Она может совпадать с наименованием. Но ее лучше давать в развернутом виде и употреблять кириллицу (русский язык). Это важно для вывода и анализа данных. Например, Name - naz_smi; Label - Наименование Средства массовой информации.

Values - значение переменной. Используется для номинальной и ранговых шкал. Например, Name - pol; Label - Пол респондента, Values: 1 - мужской, 2 - женский. Для заполнения данного регистра открывается специальное окно. Для этого нужно кликнуть мышью по ячейке. В поле: 'Значение' пишется '1', в поле 'Метка' - 'Мужской'. Нажимаем кнопку 'Добавить'. Далее, в поле: 'Значение' пишется '2', в поле 'Метка' - 'Женский'. Нажимаем кнопку 'Добавить'. И так далее, пока не будут заполнены все коды альтернатив и, соответствующие им варианты ответа. После чего нажимается кнопка 'OK'.-  респондента,  ранговых шкал. 8.де и употреблять кирилицу .

Missing - коды неопределенных значений. Это очень важный регистр для анализа данных, особенно в корреляционных таблицах номинальных признаков. Допустим, респондент при ответе на вопрос: 'Укажите Ваш пол' не отметил ни одно из предлагаемых значений (альтернатив). Тогда, при вводе данных его ответ отмечается кодом '0' (не определено). Этот код вноситься в регистр 'Missing'. Помимо этого в регистр 'Missing' вноситься код варианта 'Затрудняюсь с ответом'. Данная процедура позволяет отсеять неопределенные значения при установлении значений коэффициентов корреляции. Для заполнения данного регистра нужно кликнуть мышью по ячейке. Откроется окно 'Утерянные данные'. В нем выбирается пункт 'Дискретная потеря значений'. В любое, из трех открывшихся полей, ставиться значение - '0'; в другие можно поставить коды, соответствующие вариантам 'Затрудняюсь с ответом' и 'Другое'. После чего нажимается кнопка 'OK'. Например, Name - pol; Label - Пол респондента, Values: 1 - мужской, 2 - женский, 3 - затрудняюсь с ответом. В полях окна 'Утерянные данные' отмечаются коды: '0' - нет ответа и '3' - затрудняюсь с ответом.

Columns - ширина колонки в знаках. Восьми обычно достаточно. Для числовых значений - 3-4.

Align - выравнивание. Также не очень важный пункт меню. Можно для удобства отмечать номинальную шкалу - по левому краю, метрическую - по правому, ранговую - по центру. Это позволяет увидеть ошибки ввода.

Measure - вид шкалы. В зависимости от признака (переменной) используются метрическая, ранговая или номинальная шкала.

Ввод данных.

Для ввода данных в таблице 'Редактор данных' (Data Editor) переключиться на окно: Data View. В колонки (Name) заносятся значения переменных (коды значений), в строках - отмечаются введенные анкеты (карточки контент-анализа и т.д.). После ввода данных файл можно сохранить под другим именем.

Обработка данных.

В пункте контекстного меню выбирается  'ANALISIS' (Анализ), в старых версиях -  'STATISTICS' (Статистика). Далее, 'Описательная статистика' (второй сверху контекстного меню); далее 'Частоты' (одномерное распределение) или 'Перекрестные таблицы' (многомерное распределение).

Одномерное распределение - пункт меню: 'Частоты' (первый сверху меню: 'Описательная статистика'). Откроется диалоговое окно. В поле 'Переменная' по стрелке вносятся признаки (переменные) для которых необходимо  рассчитать частоты. Если нужна описательная статистика для метрических значений, то кликнуть по кнопке 'Статистика' ('STATISTICS'). Можно выбрать значения дисперсии, стандартного отклонения, медианы и т.д.  (среднее и процентное соотношение вычисляются автоматически).

Двумерное распределение - пункт меню: 'Перекрестные таблицы' (четвертый сверху меню: 'Описательная статистика'). Откроется окно: 'Перекрестные таблицы'. В нем три поля: 'Строки' (Rows), 'Колонки' (Columns) и 'Слой' (Lavers). Например, нужно узнать сколько женщин и мужчин читают то или иное периодическое издание. В 'Строки' вносим (по стрелке) naz_smi, в 'Колонки' - pol. Для процентного распределения необходимо кликнуть по кнопке 'Ячейка', выбрать 'Percentages' ('Процент'), отметить галочкой нужные варианты (лучше все).

Многомерное распределение - пункт меню: 'Перекрестные таблицы' (четвертый сверху меню: 'Описательная статистика'). Откроется окно: 'Перекрестные таблицы'. В нем три поля: 'Строки' (Rows), 'Колонки' (Columns) и 'Слой' (Lavers). Допустим, на предпочтение того или иного СМИ влияют факторы пола и места жительства. Тогда нам необходимо трехмерное распределение. В 'Строки' вносим (по стрелке) naz_smi, в 'Колонки' - pol, в 'Слой' - mes_git. Для процентного распределения необходимо кликнуть по кнопке 'Ячейка', выбрать 'Percentages' ('Процент'), отметить галочкой нужные варианты (лучше все).

Полученные распределения сохраняются отдельным файлом (по умолчанию: Output1).

Статистический анализ данных.

Статистический анализ необходим для установления связи между признаками (см Задания по методам статистического анализа). Его процедура зависит от вида признаков и, соответственно, - шкалы.

Номинальные признаки. Здесь наиболее распространенными являются критерий хи-квадрат и коэффициент контингенции. Их показатели анализируются одновременно с выводом 'Перекрестных таблиц'. Для этого необходимо в Окне 'Перекрестные таблицы' нажать на кнопку 'Статистика' и отметить галочкой соответствующие пункты меню: Chi-Square и Contingency Coefficient. Тогда, одновременно с перекрестной таблицей распределения результатов пакет выведет еще две.

Например, нас интересует существует ли связь между статусом СМИ и модальностью упоминания общественных организаций. Корреляционная таблица выглядит следующим образом:

Статус СМИ * Модальность упоминания Crosstabulation

 

 

 

 

Модальность упоминания

 

Total

 

 

 

положительная

нейтральная

отрицательная

 

Статус СМИ

Областное

Count

88

113

20

221

 

 

% of Total

6,891151135

8,848864526

1,566170713

17,30619

 

Волгоград

Count

460

252

48

760

 

 

% of Total

36,02192639

19,73375098

3,75880971

59,51449

 

Районное

Count

185

101

10

296

 

 

% of Total

14,48707909

7,909162099

0,783085356

23,17933

Total

 

Count

733

466

78

1277

 

 

% of Total

57,40015662

36,4917776

6,108065779

100

Ниже выводиться таблица, посвященная критерию Хи-квадрат (CHISQ):

Chi-Square Tests

 

 

 

 

Value

df

Asymp. Sig. (2-sided)

Pearson Chi-Square

37,08116316

4

1,73327E-07

Likelihood Ratio

37,39058809

4

1,49658E-07

Linear-by-Linear Association

17,41446301

1

3,0053E-05

N of Valid Cases

1277

 

 

а. 0 cells (,0%) have expected count less than 5. The minimum expected count is 13,50.

В таблице приводиться значение (Value) критерия, число степеней свободы (df) и показатель вероятности того, что распределение отличается от нормального (Asymp. Sig.).  Если показатель вероятности не превышает 0,05 (95% интервала), то полученное распределение отличается от нормального, т.е. статистическая связь между признаками существует. В приведенном примере показатель равен 1,73327E-07, т.е - 0,000000173327 (буква 'Е' обозначает на сколько порядков следует перенести вперед запятую). Можно сделать вывод, что согласно критерию хи-квадрат связь достаточно сильная.

Помимо критерия хи-квадрат, таблица содержит логарифм отношения правдоподобия (Likelihood Ratio) и статистику линейной связи (Linear-by-Linear Association).

Ниже дается комментарий: сколько ячеек не соответствует указанному соотношению (он важен лишь когда распределение в целом соответствует нормальному, но значения некоторых ячеек отличаются от него).

Еще одна таблица дает значение коэффициента контингенции:

Symmetric Measures

 

 

 

 

 

Value

Approx. Sig.

Nominal by Nominal

Contingency Coefficient

0,1679831

1,73327E-07

N of Valid Cases

 

1277

 

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

В данном случае его показатель менее 0,3. Это не позволяет утверждать наличие сильной связи.

Метрические и ранговые признаки.  Здесь выводятся коэффициенты линейной корреляции Пирсона и ранговой Спирмана. Желательно, чтобы признаки были однопорядковые. Однако шкалы в целом совместимы, поэтому можно использовать коэффициенты и для анализа связи между ранговыми и метрическими показателями.

Допустим, нас интересует - существует ли связь между статусами СМИ и их тиражом. При этом, коды статусов (1 - областное, 2 - городское, 3 - районное) программа может воспринимать и как метрические показатели, и как - ранговые, и как - номинальные. Тираж у нас приводиться в метрической шкале (количество экземпляров). Но и здесь программа может трактовать по-разному значения.

В Окне 'Перекрестные таблицы' нажать на кнопку 'Статистика' и отметить галочкой пункт меню: 'Корреляции'. Тогда на выводе получим 2 таблицы:

Тираж СМИ * Статус СМИ Crosstabulation

 

 

 

Статус СМИ

Total

 

 

 

Областное

Волгоград

Районное

 

Тираж СМИ

1000

Count

 

 

75

75

 

 

% of Total

 

 

5,773672055

5,773672

 

2000

Count

 

 

44

44

 

 

% of Total

 

 

3,387220939

3,387221

 

4341

Count

 

 

3

3

 

 

% of Total

 

 

0,230946882

0,230947

 

4485

Count

 

 

11

11

 

 

% of Total

 

 

0,846805235

0,846805

 

4502

Count

 

 

36

36

 

 

% of Total

 

 

2,771362587

2,771363

 

6100

Count

 

12

 

12

 

 

% of Total

 

0,923787529

 

0,923788

 

6200

Count

 

8

 

8

 

 

% of Total

 

0,615858353

 

0,615858

 

6250

Count

 

87

 

87

 

 

% of Total

 

6,697459584

 

6,69746

 

6967

Count

 

 

44

44

 

 

% of Total

 

 

3,387220939

3,387221

 

7032

Count

 

 

5

5

 

 

% of Total

 

 

0,38491147

0,384911

 

7318

Count

 

 

30

30

 

 

% of Total

 

 

2,309468822

2,309469

 

7950

Count

 

 

22

22

 

 

% of Total

 

 

1,69361047

1,69361

 

7957

Count

 

 

5

5

 

 

% of Total

 

 

0,38491147

0,384911

 

8934

Count

 

 

1

1

 

 

% of Total

 

 

0,076982294

0,076982

 

9730

Count

 

9

 

9

 

 

% of Total

 

0,692840647

 

0,692841

 

11982

Count

 

128

 

128

 

 

% of Total

 

9,853733641

 

9,853734

 

12300

Count

 

201

 

201

 

 

% of Total

 

15,47344111

 

15,47344

 

13625

Count

 

 

6

6

 

 

% of Total

 

 

0,461893764

0,461894

 

13774

Count

 

11

 

11

 

 

% of Total

 

0,846805235

 

0,846805

 

14386

Count

 

22

 

22

 

 

% of Total

 

1,69361047

 

1,69361

 

14853

Count

 

 

4

4

 

 

% of Total

 

 

0,307929176

0,307929

 

22539

Count

15

 

 

15

 

 

% of Total

1,154734411

 

 

1,154734

 

35520

Count

 

4

 

4

 

 

% of Total

 

0,307929176

 

0,307929

 

52971

Count

14

 

 

14

 

 

% of Total

1,077752117

 

 

1,077752

 

53940

Count

95

 

 

95

 

 

% of Total

7,313317937

 

 

7,313318

 

53959

Count

1

 

 

1

 

 

% of Total

0,076982294

 

 

0,076982

 

56184

Count

92

 

 

92

 

 

% of Total

7,082371055

 

 

7,082371

 

56185

Count

 

231

 

231

 

 

% of Total

 

17,78290993

 

17,78291

 

74770

Count

 

6

 

6

 

 

% of Total

 

0,461893764

 

0,461894

 

77470

Count

 

10

 

10

 

 

% of Total

 

0,769822941

 

0,769823

 

85320

Count

67

 

 

67

 

 

% of Total

5,157813703

 

 

5,157814

Total

 

Count

284

729

286

1299

 

 

% of Total

21,86297152

56,12009238

22,0169361

100

 

Symmetric Measures

 

 

 

 

 

 

 

Value

Asymp. Std. Error

Approx. T

Approx. Sig.

Interval by Interval

Pearson's R

-0,659214703

0,010009681

-31,57222252

9,83492E-23

Ordinal by Ordinal

Spearman Correlation

-0,683795676

0,014713824

-33,74953088

9,83492E-23

N of Valid Cases

 

1299

 

 

 

 

Во второй таблице приведены значения коэффициентов Пирсона и Спирмана. При этом Коэффициент линейной корреляции определяет коды статуса СМИ как метрические значения, а коэффициент ранговой корреляции определяет метрические значения тиража как ранги. Значения коэффициентов (Value) отличаются друг от друга, но и тот и другой свидетельствуют о наличии сильной корреляционной связи.

Редактор 'Excel' в ходит в пакет основных программ Microsoft Office, и как правило устанавливается вместе с операционной системой Windows. Как и все пакетные средства Windows, этот редактор имеет обширную, но бестолковую встроенную справку (а также массу справочной литературы), поэтому мы не будем останавливаться на нем подробно. Среди достоинств редактора можно выделить его совместимость как с Word и другими пакетными средствами Office, так и различными статистическими пакетами, базами данных сети Internet. Статистические возможности самого Excel оставляют желать лучшего. Он удобен для импорта и экспорта данных, но не для их обработки. Действительно, редактор может делать сложные статистические операции (регрессионный, факторный, дисперсионный анализ, двусторонний F-тест), но при этом не выводит коэффициенты ранговой корреляции (из всех коэффициентов корреляции высчитывается только Пирсона и тест Фишера), не может толком высчитать критерий хи-квадрат (если запросить расчет этого критерия, программа спрашивает, каким должно быть теоретическое распределение частот). Часть из указанных недостатков устраняется путем создания шаблонов (тот же расчет теоретического распределения частот для критерия хи-квадрат, расчет коэффициента Юла и т.д.), но создание подобных шаблонов процесс трудоемкий, т. к. редактор оперирует не формулами и символами, а собственными обозначениями формул и символов и, при этом записывает их одной строкой. Чтобы не запутаться сложные формулы приходится разбивать на простые.

Статистически обрабатывать данные в Excel можно либо с помощью строки меню 'Функция' (в панели инструментов 'Вставка'), либо сроки меню 'Анализ данных' ('Сервис'). В последнем случае используются те же функции, но в комплексе, а результаты выводятся в виде таблиц, что удобно (табличные формы  Excel экспортируются куда угодно, а их данные могут обрабатываться). В меню 'Анализ данных' чаще всего используются следующие инструменты:

1)            Корреляция - коэффициент линейной корреляции Пирсона, выведенный по всем столбцам выделенной области данных (каждый с каждым), что удобно для сравнения их между собой;

2)            Описательная статистика - полный набор описательной статистики количественных величин, включая моду, медиану, асимметрию, эксцесс и др.;

3)            Дисперсионный анализ - он, помимо собственно дисперсионного анализа, он выдает данные о межгрупповой и средней внутригрупповой дисперсии, которые можно использовать для расчета других коэффициентов (например, критерий мощности), путем непосредственной ссылки на нужную ячейку;

4)            Выборка - случайным образом отбирает из всего массива указанное число ячеек; при наличии списка генеральной совокупности может использоваться как инструмент рандомизированной (простой случайной) выборки;

5)            Генерация случайных чисел - может использоваться для создания различных видов случайных выборок, даже в том случае, когда списка генеральной совокупности не имеется (при этом качественные признаки нужно кодировать числовыми значениями).

В пункте меню 'Функция' также содержится достаточно много полезных инструментов анализа: доверительный интервал (наименование в редакторе - ДОВЕРИТ), критерий хи-квадрат (ХИ2ТЕСТ) и ряд других, в т.ч., все виды распределений и критические точки по данным распределениям. Это позволяет использовать редактор вместо справочных таблиц. Скажем, если выделить область данных (эмпирические частоты) и задать теоретические по распределению хи-квадрат, то функция ХИ2ТЕСТ, помимо значения критерия, укажет вероятность того, что распределение является нормальным. Если значение вероятности меньше 0,05 (5 %), то без справочных таблиц распределений и критических точек видно, что связь между признаками является статистически значимой. Можно использовать функции и для расчета критических точек (они оканчиваются на ОБР). Так, функция ХИ2ОБР, при заданных вероятности (0,05) и числе степеней свободы, указывает критическую точку распределения хи-квадрат, с которой и сравнивается полученный результат.  Функция СТЬЮДРАСПОБР, при заданных вероятности, степени свободы (k=n-2) и 'хвостах' (2 - область двусторонняя), указывает критическую точку распределения Стьюдента. По распределению Стьюдента, в частности, определяется значимость коэффициента ранговой корреляции Спирмана, т.е. вероятность того, что значение данного коэффициента не является случайным.

1.      Долговременное (в течении года) наблюдение антропологов за структурой питания племен Юмба-Тумба (всего 60 чел.) и Тумба-Юмба (100) показало, что первые из 100 посетивших миссионеров съели 30, а вторые из 60 - 50. Есть ли корреляционное отношение между племенной принадлежностью и любовью к миссионерам?

Составьте кросстабуляционную (корреляционную) таблицу (прямоугольную матрицу). Определите факторный и результатирующий признаки, а также перечень критериев связности. Интерпретируйте полученные результаты.

2.             Выборочный опрос среди племен Юмба-Тумба (n=20) и Тумба-Юмба (n=30) по поводу отношения к миссионерам дал следующие результаты, представленные в виде прямоугольной матрицы:

 

Тумба-Юмба

Юмба-Тумба

муж

жен

муж

жен

Я их люблю

0

8

6

2

Еда как еда

5

6

2

3

Не ем

10

1

2

5

Затрудняюсь с ответом

0

0

0

0

Вычислите корреляционные отношения по нормированной сумме квадратов различий между теоретическими и эмпирическими частотами - χ2 (критерий хи-квадрат), а также мощность критерия (тесноту связи) - η2. Определите распределение предпочтений в Генеральной совокупности, если известно, что в племени Юмба-Тумба насчитывается 35 женщин, а в племени Тумба-Юмба - 45. Назовите факторные и результирующие признаки.

3.      При посещении лагеря антропологов делегацией племени Тумба-Юмба, состоящей из 6 мужчин и 4 женщин, из лагеря исчезло 20 бутылок виски, 10 кг. макаронных изделий и книга М. Мид 'Секс и темперамент в трех примитивных обществах'. Привязанные к пальме антропологи отметили, что женщины забрали 2 бутылки виски и 8 кг. макарон. Существует ли взаимосвязь между потребительскими предпочтениями и половыми различиями аборигенов? Составьте четырехклеточную матрицу и определите коэффициенты ассоциации (А) и контингенции (Q).

4.      В поступившей вождю племени Тумба-Юмба Ноте от президента США указывалось, что у граждан США подданными вождя были незаконно изъяты товары первой необходимости, которые распределились следующим образом:

Имя

пол

Виски (бут.)

Макароны (кг.)

Абрэ

м

2

0

Грог

м

4

0,2

Гули

ж

0

4

Дюрек

м

3

0

Жане

ж

1

1,5

Зу-Зу

ж

1

1,5

Лу-Лу

ж

0

1

Прот

м

4

0,1

Фуз

м

1

1,5

Шуз

м

4

0,2

Всего

20

10

Вычислите коэффициенты линейной корреляции Пирсона (r) и Фехнера (I) между потреблением спиртного и макаронных изделий, определите среднеарифметические и модальные значения потребления этих продуктов у мужчин и женщин.

5.      При анализе стенограммы заседания комиссии ООН по урегулированию конфликта между США и Тумба-Юмба определились ранги потребительских предпочтений продуктов питания лиц, посетивших лагерь антропологов. Они выглядят следующим образом:

Имя

Миссионеры

Макароны

Виски

Абрэ

2

3

1

Грог

1

3

2

Гули

2

1

3

Дюрек

1

3

2

Жане

3

1

2

Зу-Зу

1

3

2

Лу-Лу

1

2

3

Прот

2

3

1

Фуз

3

1

2

Шуз

2

3

1

Определите коэффициенты ранговой корреляции Спирмана (ρ) и Кендела (Τ)                                      потребления виски и макарон, а также виски и миссионеров. Какую закуску больше предпочитают мужчины?

6.      На основании анализа предыдущих заданий предложите итоговый вариант исследования с указанием статистически значимых связей.

 

1.      Объем потребляемой пищи зависит от численности населения. Это факторный признак. Количество самой пищи также может быть факторным признаком, но здесь в обоих случаях она потреблялась не вся. Поэтому корреляционная таблица должна выглядеть следующим образом:

 

Тумба-Юмба

Юмба-Тумба

Количество жителей

100

60

Количество съеденных миссионеров

50

30

Количество съеденных миссионеров на одного жителя

0,5

0,5

Коэффициенты ассоциации (А), контингенции (Q) и другие в данном случае не нужны.

2.             Приведенная таблица распределения частот визуально свидетельствует, что отношение к миссионерам зависит от гендерной принадлежности внутри каждого племени. Поэтому критерий хи-квадрат (критерий χ2) необходимо высчитывать для каждого племени отдельно. При этом следует игнорировать строку 'Затрудняюсь с ответом', т.к. она не несет информации о предпочтениях и не имеет значений, отличных от нуля. Критерий хи-квадрат по распределению ответов в племени Тумба-Юмба приблизительно равен 14,88, а в Юмба-Тумба - 4,63, при степени свободы 4 для обоих случаев (k=m·l-2=6-2=4). Критическая точка распределения χ2  для 95 % интервала приблизительно равна 9,49. Отсюда вывод: в племени Тумба-Юмба гендерный фактор в определении предпочтений является статистически значимым, а в Юмба-Тумба- нет.

Если под рукой нет таблиц распределения хи-квадрат, то можно воспользоваться функцией табличного редактора Excel ХИ2ОБР, которая при заданной вероятности (0,05) и степени свободы (4) определит искомую критическую точку. Функция ХИ2РАСП, напротив, при вводе полученного значения хи-квадрат определяет вероятность того, что распределение является нормальным (в данном случае для 14,88 вероятность составляет 0,005 т.е. - 0,5 %, а для 4,63 - 0,328).

Теснота связи (η2) расчитывается не по факторному, а по результирующему признаку (насколько он связан с факторным). В племени Юмба-Тумба η2 приблизительно равен 0,29, а в Тумба-Юмба - 0,015, что говорит об устойчивости вкусов последнего. В племени Тумба-Юмба 24+0,3 женщины обожают миссионеров, а 3+0,04 их не едят. В другом, соответственно - 7+2 и 18+5.

3.             Корреляционная матрица:

 

Муж

Жен

Всего

Макароны

2

18

20

Виски

8

2

10

Всего

10

20

30

Коэффициенты ассоциации (А=0,7) и контингенции (Q=0,95) свидетельствуют, что потребительские предпочтения устойчиво коррелированны гендерной принадлежностью.

4.             Коэффициент линейной корреляции Пирсона (r=-0,74) и Фехнера (I=-1,0) свидетельствуют о сильной обратной связи между потреблением спиртного и макарон. У женщин коэффициент линейной корреляции Пирсона (в редакторе Excel - функция ПИРСОН) равна -0,42, -0,68 - у мужчин. Это говорит об отсутствии влияния гендерного фактора (в абсолютном значении общий коэффициент больше).

Мужчины употребили в среднем по 3 бутылки виски (мода - 4, стандартная ошибка - 0,52) и по 0,33 кг. макарон (мода - 0, стандартная ошибка - 0,24), женщины - по 0,5 бутылки виски (мода - 0 и 1, стандартная ошибка - 0,29) и по 2 кг. макарон (мода - 1,5, стандартная ошибка - 0,68).

5.             Коэффициенты ранговой корреляции Спирмана (ρ=-0,62 между потреблением виски и макарон и ρ=-0,27 между потреблением виски и миссионеров) и  тау‑Кендела (Τ=-0,55 и Τ=-0,22, соответственно) также говорят об обратной связи. У мужчин ρ=‑0,45 между потреблением виски и макарон и ρ=-0,31 между потреблением виски и миссионеров, Τ=-0,45 и Τ=-0,30, соответственно. Это говорит о том, что мужчины племени Тумба-Юмба предпочитают не закусывать, по крайней мере, макаронами и миссионерами.

 

 
 
 
Формулы расчета коэффициентов
 
 
 Copyright © galkin-apgalkin-ap@mail.ru 
BOXMAIL.BIZ - Конструктор сайтов
WOL.BZ - Бесплатный хостинг, создание сайтов
RIN.ru - Russian Information Network 3