Кодирование: что все эти цифры значат?
Процесс присвоения количественных значений имеющейся у нас информации называетсякодированием.Кодирование для измерений значит то же, что алфавит для речи, а именно средство, с помощью которого информации придается форма связного и продолжительного сообщения. Так же как каждая буква или комбинация букв алфавита представляет определенный звук, каждая цифра или комбинация цифр кода представляет определенную характеристику или состояние исследуемого объекта. И так же, как буквы позволяют тем, кто знает алфавит, оперировать сложными мыслями, цифры позволяют тем, кто [c.356] знает код, оперировать сложными понятиями в более сокращенной форме. Кроме того, цифровая кодировка дает возможность исследователю пойти еще дальше, поскольку кодированная информация, особенно кодированная в цифровой форме, позволяет применить математические методы, и тогда полученные данные могут выявить то, что без обращения к цифровой интерпретации могло остаться скрытым. Другими словами, кодирование открывает путь к более глубокому исследованию, чем это могло бы быть в любом другом случае.
Цифровые коды в исследовательской работе очень похожи на азбуку Морзе в телеграфии, с которой вы, вероятно, знакомы. В азбуке Морзе определенные комбинации точек и тире заменяют буквы алфавита. Сами точки и тире преобразуются в длинные и короткие звуки, которыемогут быть переданы по радио от соответственно оборудованной передающей станции к соответственно оборудованному приемнику. Звуки затем преобразуются в буквы, и передача сообщения, таким образом, завершена. На рис. 12.1 этот процесс изображен в форме диаграммы.
Рис. 12.1. Кодирование в телеграфии
Точно также в научном исследовании каждая цифра кода означает определенную градацию данной переменной. Например, если мы измеряем уровень образования членов определенной группы, в которой каждый опрашиваемый может иметь незаконченную высшую школу, законченную высшую школу и законченное высшее образование колледжа, мы можем представить эти три уровня градаций цифрами 1, 2, 3. Или же, если мы хотим учесть число лет обучения, цифровой код должен отражать это число (например, цифра 7 будет значить семь лет обучения). Обе системы кодирования позволяют довольно точно подытожить результаты исследования, хотя принципы, кодирования разнятся. Ну и, поскольку мы имеем комплекс закодированных в той или иной форме данных, можно обрабатывать и анализировать их в соответствии с нашими желаниями, прежде чем преобразовывать их обратно в словесную форму при подготовке отчета о нашей нагнои деятельности. Этот процесс перевода информациииз словесной формы в цифровую и обратно в обобщенной форме показан на рис. 12.2.
Рис. 12.2. Кодирование в исследовании
Самое главное, что необходимо помнить при разработке кодирования данных, – это то, что принцип [c.357] кодирования должен всегда определяться характером измерения исследуемой переменной. Так, переменные, измеряемые номинальными шкалами, должны иметь номинальные коды, переменные, измеряемые шкалами порядков, – порядковые, и переменные, измеряемые интервальными шкалами, – интервальные. Внешне все эти цифры могут казаться [c.358] одними и теми же, однако их значения в каждом случае существенно отличны от других. Анализ или оперирован данными, преобразованными из словесной формы в цифровую, чреваты непреодолимым искушением применить м годы, которые просто невозможны в данном случае в си особенностей измерения переменной (более подробно мы рассмотрим эту проблему в следующих главах). Такое искушение нужно преодолеть, если мы хотим извлечь пользу своего исследования. [c.359]
Механизм закодирования (или раскодирования) данных действительно очень прост. Мы начнем с определения типа каждой переменной нашего исследования с точки зрения шкалы ее измерения. Если это номинальная переменная, в которой нам нужно распределить цифры кода между взаимоисключающими категориями, невзирая на порядок их расположения, то мы делаем это так, как нам удобно. Возьмем довольно типичный пример. Если члены исследуемой группы подразделяются по вероисповеданию на протестантов,католиков и иудеев, то распределить коды между этими категориями можно согласно любой из нижеследующих схем:
| 1 Протестанты 2 Католики 3 Иудеи | 1 Католики 5 Иудеи 8 Протестанты | 1 Иудеи 2 Протестанты 3 Католики | 43 Протестанты 17 Католики 27 Иудеи |
|
В каждом случае отдельная цифровая градация используется для обозначения градации или категории переменной. Поскольку вероисповедание есть номинальная характеристика, порядок расположения и размерность кода не имеют никакого значения. Мы можем при кодировании использовать одно-, трех- и даже десятизначные цифры, если нам этого захочется. Конечно, лучше давать наиболее простые и удобные коды, и обычно выбирают простые цифры с наименьшим количеством знаков, но вообще это зависит от нашей приверженности к экономии, а не от каких-либо математических требований.
Можно также использовать более сложную схему номинального кодирования для более полного отражения информации. Например, мы хотим в нашем исследовании более подробно представить информацию о лицах протестантского и иудейского вероисповедания. Тогда мы можем использовать систему двузначных кодов, которая строится на предыдущей классификации. В качестве первой цифры выбираем ту же, что и ранее (например, 1 – протестанты, 2 – католики, 3 – иудеи). Вторая будет обозначать новую информацию. Взгляните на следующую схему:
| 10 Протестанты 11 Баптисты 12 Методисты 13 Просвитериане 14 Лютеране | 20 Католики 30 Иудеи 31 Ортодоксальные 32 Консервативные 33 Реформистские |
|
[c.360]
Здесь наши коды отражают (в первой колонке) приблизительную разницу между категориями и в то же время (вторая колонка) дают возможность уточнения. В результате мы имеем более полную запись характеристик исследуемых лиц, которая вместе с тем сохраняет следы менее точной (но зачастую более удобной с точки зрения анализа) системы записи, с которой мы начали.
Если бы нам нужно было перечислить все градации протестантского вероисповедания, то возможности кода в диапазоне “10” (от 10 до 19) вскоре были бы исчерпаны и нам пришлось бы изменить схему записи. Любой из нижепредложенных вариантов может легко решить эту проблему, хотя выбор того или иного пути может варьироваться в зависимости от задач исследовательского анализа или навыков компьютерного программирования.
В первом случае мы просто увеличили количество двузначных кодов (комплектов десятичных кодов), приписанных протестантам, тогда как во втором – упорядочили их. И опять если переменная, по сути, является номинальной, то ни конкретная цифра, ни количество знаков кода не имеют никакого значения. До тех пор пока наша система кодировки является оптимально экономной, а градации переменной – взаимоисключающими, любая цифра удовлетворительна. [c.361]
Когда мы кодируем порядковые переменные, наши возможности уже несколько ограничены. Поскольку порядковое измерение не предполагает равных или просто известных нам интервалов, мы остаемся, вольны в выборе цифр любой величины. Но поскольку порядковое измерение требует сохранения в наших кодах относительного ранжирования градаций (позиций), мы должны заботиться о том, чтобы наши цифры были по меньшей мере определенным образом расположены. Так, для переменной уровень политического развития или любой другой переменной, содержащей разницу в уровне, степени или сходстве градаций, любая из предложенных ниже систем кодировки может быть одинаково верной (и одинаково значимой).
| 1 Самый низкий 2 Низкий 3 Высокий 4 Высший |
| 1 Самый низкий 6 Низкий 7 Высокий 9 Высший | 1 17 24 3027 | Самый низкий Низкий Высокий Высший |
Каждая из них сохраняет порядок, заданный самой переменной. И ни одна не является более точной, чем остальные, поскольку точность здесь – функция не самих цифр, а стоящего за ними порядкового измерения. Как и ранее, наша приверженность к экономии может подтолкнуть нас к выбору первой из трех предложенных схем, однако если не принимать этого во внимание, то наш выбор строго случаен.
Напротив, ни одна из следующих схем не является подходящей:
| 1 Самый низкий 9 Низкий 6 Высокий 7 Высший | 1 Высший 2 Высокий 3 Низкий 4 Самый низкий |
|
Если относительная величина или расположение цифровых кодов (а следовательно, и направление их изменения) не имеют значения для номинальных измерений, то в случае работы с порядковыми данными они очень важны. В первом из вышеприведенных примеров смещен порядок кодов, во втором он изменен на обратный. В результате ни одна из систем кодировки не сохраняет в достаточной мере относительного расположения и величины градацийсамой переменной. Таким образом, коды неверно передают сведения. Они либо лишают нас возможности выстроить наши данные по порядку, либо вводят в заблуждение относительно причин [c.362] той систематизации, которую мы пытаемся выработать. Короче говоря, подобных ошибок нужно избегать при работе с порядковыми данными.
Разработка кодов для интервальных измерений, с одной стороны, – наиболее трудоемкий процесс, однако с другой – он может оказаться наилегчайшим. Здесь цифры имеют гораздо более точное значение, и наши возможности в кодировании существенно ограничены. Доллар – это доллар, год – это год, а разница между 47 и 43% такова же, как и между 73 и 69%. В интервальном измерении не только величины являются взаимоисключающими и определяющими порядок расположения, но и интервал между двумя соседними значениями одинаков и неизменен. Кодирование интервальных данных должно сохранять эти характеристики.
На первый взгляд это может показаться невыполнимой задачей. Для того чтобы закодировать интервальную переменную, необходимо найти такую систему кодов, где каждый исключает другие, каждый соответствует определенной величине переменной, каждый отстоит на равное количество единиц измерения от ближайшего соседа и дистанция эта между двумя соседними величинами известна. В действительности, однако, нахождение таких цифр, в общем-то, простая задача, поскольку в отличие от большинства номинальных или порядковых шкал, когда исследователь, по сути дела, вынужден выискивать цифровые эквиваленты для своих сведений, многие интервальные коды заданы изначально. Иными словами, интервальные коды гораздо чаще, чем на более низких уровнях измерения, следуют непосредственно из операционных характеристик самой переменной. Если определить личный доход как количество долларов, которое он или она зарабатывает за определенное время, то каждое конкретное количество заработанных долларов определяет не только какую-либо градацию переменной дохода, но и код для этой градации. Если градации номинальных и порядковых переменных в основе своей являются вербальными (как, например, протестант и католик,высокий и низкий уровни развития) и должны быть заменены цифровыми эквивалентами, то градации интервальных переменных изначально имеют цифровую форму (доллары дохода при исчислении стажа работы в административном [c.363] учреждении) и не требуют специального перевода. Результатом является то, что при кодировании интервальных данных основное внимание уделяется не созданию имеющих смысл кодов, а опознаванию и сохранению их.
Как отмечалось в гл. 3, иногда могут возникнуть такие ситуации, когда исследователь, желая повысить возможности обработки и информационную отдачу своих данных, захочет свести интервальные данные к порядковым категориям. Например, для нас гораздо проще и значимее может оказаться анализ респондентов по общему уровню их доходов, чем учет каждого доллара разницы. В таких случаях в первоначальной кодировке данных можно сохранить их интервальный характер, а затем полученные категории преобразовать согласно нуждам исследователя (например, мы записываем действительное количество долларов, заработанных респондентами, а затем группируем их в более крупные категории) или же можно действовать по методу, когда данные сразу, по мере поступления записываются в сгруппированном виде так, как будто мы классифицируем респондентов по большим категориям дохода и не фиксируем точный размер их заработка. Каждый метод имеет свои достоинства и свои недостатки, которые должны учитываться в каждом конкретном случае. Какой бы метод ни был взят, исследователь должен быть уверен, что выбранная схема кодирования отвечает требованиям измерения конкретного признака.
Становится очевидным, что процесс приписывания определенных кодов данным неотделим от процесса операционализации переменных. Безусловно, коды – это ничто иное, как цифровое выражение наших операциональных определений. Поэтому обсуждение проблемы кодирования было бы более уместно в начале книги. Все вопросы, связанные с тем, какие коды дать градациям переменных, должны быть решены на ранних стадиях исследовательского процесса. Все это неотъемлемая часть верного планирования исследования. Однако истинная ценность кодов становится понятной позже, поскольку именно на стадии анализа данных коды начинают играть ту роль, которую они призваны сыграть во всем проекте исследования. Именно тогда коды дают возможность перейти от обзора к обработке данных, а затем от обработки – к интерпретации. Для того чтобы понять, как происходит этот переход, давайте рассмотрим некоторые аспекты техники кодирования. [c.364]
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания вступительная статья
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания предисловие
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- Введение
- 1. Процесс исследования
- Формулирование теории
- Операционализация теории
- Выбор адекватных методов исследования
- Наблюдение за поведением
- Анализ данных
- Интерпретация результатов
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания подготовка к исследованию
- 2. Создание теории: понятия и гипотезы в политологии
- Что такое теория?
- Логика построения теории
- Компоненты теории
- Проверка и совершенствование теории
- Роль гипотез
- Формулирование гипотез
- Заключение
- Дополнительная литература к главе 2
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 3. От абстрактного к конкретному: операционализация и измерение
- Операционализация: связь между теорией и наблюдением
- Операционные определения
- Измерение
- Уровни измерения
- Рабочая гипотеза
- Ошибка измерения
- Валидность
- Типы валидизации
- Надежность
- Заключение
- Дополнительная литература к главе 3
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 4. Работа по плану: как составить программу исследования
- Цель и программа исследования
- Учет в программе исследования альтернативных конкурирующих гипотез
- Экспериментальные программы исследования
- Программа классического эксперимента
- Программа эксперимента с двумя контрольными группами, разработанная р.Соломоном
- Программа эксперимента с двумя контрольными группами, разработанная р.Соломоном
- Формирование групп
- Полевые эксперименты и неэкспериментальные программы
- Квазиэкспериментальные программы
- Выбор программы исследования
- Факторы, угрожающие валидности
- Факторы, угрожающие внутренней валидности
- Факторы, угрожающие внешней валидности
- Дополнительная литература к главе 4
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 5. Кто, что, где, когда: проблема выборки
- Репрезентативная выборка
- Процедуры формирования репрезентативной выборки
- Установление необходимого объема выборки
- Краткие характеристики выборок разного объема
- Заключение
- Дополнительная литература к главе 5
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания методы сбора данных
- 6. Опрос
- Этапы проведения опроса
- Концептуализация
- Подготовка инструментария
- Планирование опроса и построение выборки
- Проблемы, связанные с финансированием опроса
- Обучение и инструктаж персонала
- Предварительное тестирование
- Проведение опроса
- Наблюдение за ходом опроса (мониторинг)
- Контрольная проверка
- Вторичный анализ данных опроса
- Дополнительная литература к главе 6
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 7. Интервьюирование
- Выборочное интервьюирование
- Формулирование вопросов
- Отбор интервьюеров
- Направленное интервьюирование
- Методика направленного интервьюирования
- Специализированное интервьюирование
- Дополнительная литература
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 8. Шкалирование
- Построение шкалы: две основные проблемы
- Шкалирование по лайкерту
- Шкалирование по гуттману
- Шкалирование по тёрстоуну
- Метод семантического дифференциала
- Дополнительная литература
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 9. Контент-анализ
- Подготовка к контент-анализу
- Проведение содержательного контент-анализа
- Проведение структурного контент-анализа
- Некоторые проблемы, возникающие в ходе контент-анализа
- Дополнительная литература к главе 9
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 10. Источники и применение сводных данных
- Типы сводных данных
- Проблемы, связанные с использованием сводных данных
- Источники сводных данных
- Сбор сводных данных
- Заключение
- Дополнительная литература к главе 10
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 11. Поверх границ: практика сравнительных исследований
- Выявление “кочующих” вопросов
- Поиск эквивалентной меры
- Отбор стран для изучения
- Отбор независимых наблюдений
- Отбор материала
- Заключение
- Дополнительная литература к главе 11
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания обработка данных
- 12. Подготовка и обработка данных
- Кодирование: что все эти цифры значат?
- Книга кодов и кодировальный бланк
- Макет кодировки для исследования “Информационные агентства о некоторых странах”
- Как обработать данные
- Дополнительная литература
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 13. Описание данных: построение таблиц, диаграмм, гистограмм
- Перечневая таблица
- Голоса белых и чернокожих избирателей, поданные за демократов в 1960 - 1976 гг., % *
- Линейная диаграмма
- Секторная диаграмма и гистограмма
- Двусторонняя гистограмма
- Расовые различия на президентских выборах 1964 г., %
- Расовые различия на президентских выборах 1972 г., %
- Некоторые предостережения
- Дополнительная литература
- Далее 14. Статистика I: анализ одномерных распределений к оглавлению примечания
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 14. Статистика I: анализ одномерных распределений
- Измерение средней тенденции и дисперсии
- Частотное распределение: типы занятий респондентов
- Измерения для номинальных переменных
- Измерения для порядковых переменных
- Уровни образования по трем массивам
- Измерения для интервальных переменных
- Заключение
- Дополнительная литература
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 15. Статистика II: изучение взаимосвязей между двумя переменными
- Измерение связи и статистической значимости
- Измерение связи и значимости для номинальных переменных
- Определение партийности на основании партийной принадлежности отца (1)
- Определение партийности на основании партийной принадлежности отца (2)
- Определение партийности на основании партийной принадлежности отца (3)
- Значения, используемые для получения χ2
- Измерение связи и значимости для порядковых переменных
- Обобщенная таблица взаимной сопряженности признаков
- Измерение связи и значимости для интервальных переменных
- Значения, используемые для вычислений по уравнению регрессионной прямой
- Значения, используемые при определении коэффициента корреляции (r)
- Заключение
- Дополнительная литература
- Далее: 16. Статистика III: изучение взаимосвязей между несколькими переменными к оглавлению примечания
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 16. Статистика III: изучение взаимосвязей между несколькими переменными
- Анализ таблиц
- Соотношение между получением образования в колледже и политическим мировоззрением
- Гипотетические отношения между получением образования в колледже и политическим мировоззрением для мужчин
- Гипотетические отношения между получением образования в колледже и политическим мировоззрением для женщин
- Множественная регрессия
- Интерпретация результатов множественной регрессии
- Решение общих проблем множественной регрессии
- Анализ временных рядов
- Заключение
- Дополнительная литература
- Далее: 17. Математическое моделирование к оглавлению примечания
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 17. Математическое моделирование
- Процесс моделирования
- Зачем нужны модели?
- Примеры математических моделей политического поведения
- Другие типы моделей
- Сложности, связанные с моделированием
- Заключение
- Дополнительная литература
- Далее: 18. Некоторые обобщения к оглавлению примечания
- Красным шрифтом в квадратных скобках обозначается конец текста на соответствующей странице печатного оригинала данного издания
- 18. Некоторые обобщения
- Разработка гипотезы, измерения и программы исследования
- Сбор и анализ данных
- Контрольный бланк для оценки исследований
- Контрольный бланк для оценки исследования
- Заключение
- К оглавлению Примечание