WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:   || 2 | 3 | 4 |

«Е.В. Черепанов МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ НЕОДНОРОДНЫХ СОВОКУПНОСТЕЙ ЭКОНОМИЧЕСКИХ ДАННЫХ Москва 2013 УДК 519.86 ББК 65.050 Ч 467 Черепанов Евгений Васильевич. Математическое ...»

-- [ Страница 1 ] --

Министерство образования и науки Российской Федерации

Московский государственный университет экономики,

статистики и информатики (МЭСИ)

Е.В. Черепанов

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

НЕОДНОРОДНЫХ СОВОКУПНОСТЕЙ

ЭКОНОМИЧЕСКИХ ДАННЫХ

Москва 2013

УДК 519.86

ББК 65.050

Ч 467

Черепанов Евгений Васильевич. Математическое моделирование неоднородных совокупностей экономических данных. Монография / Московский государственный университет экономики, статистики и информатики (МЭСИ). – М., 2013. – С. 229.

Рецензенты:

Мхитарян В.С., д.э.н., проф. руководитель департамента статистики и анализа данных НИУ ВШЭ;

Вартазарова Л.С., д.э.н., зам. Генерального директора Информационно-аналитического агентства «МиК - Маркетинг и Консалтинг»

В монографии изложен материал по использованию стохастических методов при математическом моделировании неоднородных совокупностей экономических данных по случайным выборкам.

Рассмотрены задачи статистического оценивания частот встречаемости качественных (нечисловых) признаков в неоднородной совокупности, непараметрического полиграммного оценивания функционалов, зависящих от (аналитически неизвестного) распределения, задача выявления недостающих и неточных данных в эмпирических таблицах показателей, задачи экстраполирования последовательностей экономических показателей по короткой ретроспективе наблюдения и статистической классификации.

Отдельно стоит пятая главу, где изложен не имеющий мировых аналогов подход, который позволяет с единой позиции рассмотреть основные характеристики потребления и производства (торговли) на рынке конкурентных товаров. Пока этот подход разработан лишь теоретически, в связи с чем требует обсуждения и дальнейшего развития.

Для специалистов по эконометрике, математической экономике и компьютерной обработки результатов выборочных обследований, а также аспирантов и студентов старших курсов этих специальностей.

© Московский государственный университет ISBN 978-5-7764-0775- экономики, статистики и информатики, © Черепанов Евгений Васильевич,

СОДЕРЖАНИЕ

Введение

Глава 1. Стохастические методы в социально-экономических исследованиях: состояние и направления развития

1.1. Специфика использования стохастического формализма в маркетинговых и социально-экономических исследованиях

1.2. Дихотомизация описания социально-экономических систем как основной принцип работы с эмпирическими нечисловыми данными........ 1.3. Проблема полноты и достоверности таблиц эмпирических данных.

Статистическое прогнозирование в экономических и технико-экономических исследованиях

1.4. Статистическая классификация многомерных объектов.

Соотношение понятий неопределенности, нечеткости и случайности............. Выводы по главе 1

Глава 2. Многомерные обобщения гипергеометрического распределения и их асимптотика как основа изучения неоднородных (структурированных) множеств

2.1. Многомерные обобщения гипергеометрического распределения (ГГР).......... 2.2. Случайные и квотные оценки в социальных исследованиях и маркетинге потребительских рынков

2.3. Полиномиальное распределение (ПР) и его обобщения

2.4. Непрерывные аналоги распределений полиномиального типа

Выводы по главе 2

Глава 3. Статистические оценки частот встречаемости булевых признаков по случайной неоднородной выборке.

Непараметрические полиграммные оценки

3.1. Статистические оценки частот встречаемости булевых признаков по случайной неоднородной выборке с использованием МГГР

3.2. Статистические оценки частот встречаемости дихотомических признаков для категорий населения

3.3. Метод группового анкетирования на «малых выборках»

3.4. Полиграммные оценки и их использование при анализе непрерывных распределений экономических показателей

Выводы по главе 3

Глава 4. Статистические методы выборочного оценивания в задачах социально-экономических исследований

4.1. Анализ полноты и достоверности данных в эмпирических таблицах значений экономических показателей

4.2. Непараметрическое прогнозирование и статистическое планирование экономической динамики

4.3. Типологическое пространство, функция сходства и анализ уровня экономических объектов

4.4. Статистическая классификация многомерных экономических и технических систем

Выводы по главе 4

Глава 5. Теоретико-математические основы маркетинга потребительских рынков

5.1. Потребление на многотоварном конкурентном рынке

5.2. Критерий максимизация прибыли продавца

5.3. Издержки продавца (производителя)

5.4. Зависимости между категориями потребления

Выводы по главе 5

Глава 6. Статистический анализ потребительских предпочтений (на примере московского рынка табачной продукции

6.1. Оценка потребления марок табачной продукции





6.2. Структура потребления табачной продукции

6.3. Структура потребления в социальных «разрезах»

6.4. Оценка количества выкуриваемого табака в день и предпочтения москвичей по крепости табачных изделий

Выводы по главе 6

Заключение

Библиографические ссылки

ВВЕДЕНИЕ

Экономика, по своей природе, наука стохастическая, что отмечал еще основоположник современной теории потребления У. Джевонс: «Законы экономики носят настолько сложный характер, что проявляются только для совокупностей и должны изучаться методом средних» [296]. В «переводе» на современный язык это значит:

«Экономические законы носят вероятностный характер и должны изучаться статистическими методами».

Одно из основных направлений использования математики в эконометрических и прикладных социально-экономических работах основано на выборочном методе. Но любые выборочные методики базируются на законе больших чисел, который (в форме теоремы Я. Бернулли [28]) утверждает, что выборочные частоты встречаемости качественных признаков асимптотически сходятся к истинным значениям соответствующих вероятностей. Но этот непараметрический факт априори предполагает наличие большой серии независимых и однородных наблюдений.

А социум (население, покупатели, электорат) практически всегда является неоднородным множеством (структурированным по различным номинальным шкалам).

В такой ситуации в эмпирических исследованиях решить проблему неоднородности (структурированности) наблюдений (совокупностей населения, потребителей, избирателей) можно на основе одного из двух подходов:

создав квотную выборку, репрезентативную по основным априорным классификациям структуре изучаемой совокупности;

математически корректно учесть при компьютерной обработке данных различия между структурами выборочного ансамбля и исследуемой генеральной совокупности.

Собственно, в 30-е гг. ХХ века, когда отсутствовала вычислительная техника, у пионеров выборочных исследований и выбора фактически не было: раз считать условные вероятности не на чем, будем строить квотные выборки. Так квотная методология выборочных исследований просуществовала в почти неизменном виде до наших дней. В 70-е гг. ХХ века появились компьютеры, но их применение для обработки эмпирических данных свелось, почти исключительно, к использованию методов классической статистики, заимствованных из физических наук.

Квотная методология выборочных исследований, а также «стандартные» компьютерные методы обработки эмпирических данных сводятся к использованию процедур классической статистики в предположении, что связанные с неоднородностью данных проблемы решены на этапе формирования квотной выборки. Однако квотный подход в принципе не может дать оценок частот встречаемости качественных признаков по категориям априорных классификаций.

Кроме того, создание квотной выборки для населения, проживающего на большой территории, даже по 3 - 4 номинальным шкалам (как видно, например, из монографий Ф. Йейтса [82], Л. Киша [298] и статьи М.С. Косолапова [99]) дело весьма дорогостоящее, методически сложное, а иногда и практически нереализуемое. Причем, при формировании квотной выборки неизбежно не учитываются многие классификации, создающие значимую неоднородность выборочного ансамбля, и тем самым, внося в выборочные оценки погрешности, которые не поддаются количественному анализу.

Второй подход, связанный со строгим математическим учетом различий в структурах исследуемой неоднородной совокупности и выборочного ансамбля из ее элементов, пока не нашел в мировой практике заметного развития. Решению этой проблемы и посвящена большая часть предлагаемой монографии.

Выборочные методологии сегодня являются основным инструментарием эконометрических, социально-экономических, маркетинговых и политологических исследований эмпирического характера. Причем теоретической базой любой статистической процедуры служат асимптотические свойства выборочных статистик, что позволяет считать теорию вероятностей основой всей выборочной методологии. Стоит отметить, что еще А.Н. Колмогоров подчеркивал 1: «… теория вероятностей начинается с закона больших чисел Я. Бернулли и найденного вскоре после этого Муавром нормального приближения к биномиальному распределению». Но, схема испытаний Бернулли предполагает абсолютную идентичность условий опытов. А в социально-экономических и эконометрических работах однородные выборочные ансамбли встречаются крайне редко.

Статистическая теория, развиваемая в фишеровских традициях [291], и выборочная методология, включая аспекты анализа эмпирических данных, долгое время обеспечивали фактографическую основу прикладных работ. Однако, в силу специфики стохастического анализа многих реальных данных (неоднородность и малые объемы выборок, наличие «выбросов», ошибки в таблицах данных, наличие смесей распределений и др.), классические статистические процедуры, резко теряя свою эффективность в эмпирических исследованиях, оказываются малопригодными для обработки реальных эконометрических и социально-экономических данных.

До 60-х гг. ХХ века применение математических и стохастических методов в эконометрических, социально-экономических и маркетинговых исследованиях носило весьма бессистемный характер, а используемые методы и процедуры «заимствовались» из математической физики.

При этом вопрос о корректности и границах применимости используемых статистических методов в приложениях практически рассматривался крайне редко [186,187]. В этой связи Норберт Винер отмечал: «Успехи математической физики вызвали у социологов и экономистов чувство ревности к силе ее методов. Чувство, которое едва ли сопровождалось отчетливым пониманием интеллектуальных истоков этой силы» [39].

Из предисловия к юбилейному изданию трактата Якоба Бернулли [28].

В 70-80-е гг. ХХ в. стали отличать методы прикладной статистики (которую на Западе чаще называют анализом данных) от методов математической статистики. Как отмечает А.И. Орлов [138], именно в это двадцатилетие была наработана основная база методов анализа данных, используемая в современных статистических методиках.

Выделились четыре направления разработки процедур прикладной статистики и анализа реальных (в том числе, эконометрических и социально-экономических) данных:

устойчивых к нарушениям априорных предпосылок (непараметрических и робастных) процедур оценивания моментов и характеристик непрерывных распределений;

измерения и анализа качественных (нечисловых) показателей (признаков);

классификации сложных многомерных объектов и систем;

прогнозирования многомерных последовательностей показателей.

Но, к сожалению, классические методы математической статистики до наших дней широко используются в прикладных исследованиях на малых объемах весьма неоднородных данных.

Например, авторы статьи [108], изучив около 200 кандидатских и докторских диссертаций в области медицины и биологии, показали, что в абсолютном большинстве из них статистические методы применялись некорректно.

Большой вклад в развитие прикладной статистики и многомерного анализа данных был внесен западными учеными, среди которых особенно выделяются труды Т. Андерсена [19], П. Бикеля [31, 286], Г. Бокса [287], Г. Бриллинджера [36, 52], Я. Гаека [43, 293], М. Гупты [292], Э. Дидэ [50], Г. Дженкинса [287], Г. Дэйвида [59], М. Кендалла и А. Стюарта [83-86], Р. Литтла [109], Ф. Мостеллера [124], Дж. Тьюки [124, 188, 189, 286, 302, 303], Ф. Хампеля [202, 203, 286, 294], М. Холлиндера и Д. Вульфа [206], П. Хубера [207, 286, 295], также ряда других ученых.

Не менее велик вклад в развитие вероятностно-статистических методов социально-экономических исследований российских ученых С.А. Айвазяна [9-13], М.Г. Дмитриева [51,52], А.М. Дуброва [54,55], А.А. Ершова [64], Э.Б. Ершова [65], Н.Г. Загоруйко [71-74], В.С. Мхитаряна [13,55,126-133], А.И. Орлова [139-141], В.С. Пугачёва [152], Г.В.Раушенбаха [154], Ф.П. Тарасенко [172-175], Ю.Н.

Толстовой [177-184], В.Н. Тутубалина [186,187], Ю.Н. Тюрина [190-193] и ряда других ведущих специалистов.

Важные результаты по развитию стохастического аппарата социально-экономических и социологических исследований, распознаванию образов, статистической классификации, факторному анализу, прогнозированию и смежным вопросам получили Ю.И. Алимов [15-17], В.А. Балаш [25], Г.П. Бессокирная [29, 30], А.Д. Деев [49], Ю.Г. Дмитриев [172], Т.А. Дуброва [56, 57], С.А. Дубровский [58], И.С. Енюков [10-12], Г.С. Жукова [68, 69], И.Г. Журбенко [70], А.О. Крыштановский [103], Г.С. Лбов [106], Ю.П. Лукашин [111, 112], Б.Г. Миркин [121,122], Л.Д. Ме-шалкин [10-12, 117-119], В.И. Паниотто [143], В.Т. Перекрест [144], А.Б. Пересецкий [145], А.Г. Постников [149], П.С. Ростовцев [155], Г.А. Сатаров [162], А.А. Свешников [163,164], С.А.Смоляк и Б.П. Титаренко [169], Ю.К. Устинов [196], А.А. Филиппова [198] и ряд других отечественных учёных.

Заметим, что анализ объектов нечисловой природы лежал в истоках всей стохастической математики (схема испытаний Бернулли, задачи выбора, с возвращением и без него, «разноцветных» шаров из урны). Именно при изучении этих явлений были получены теорема Муавра-Лапласа, биномиальное, Пуассона и гипергеометрическое распределения. А в середине ХХ в. была создана методология статистического анализа качества продукции [123,126], в основе которой лежат труды А.Н. Колмогорова и Б.В. Гнеденко. О современном состоянии нечисловой статистики можно судить по монографиям Ю.Н. Толстовой [180-182] и А.И. Орлова [139-141], а также по статье Ю.Н. Тюрина и Д.С. Шмерлинга [193].

Разработка методов нечисловой статистики неразрывно связана с совершенствованием выборочной методологии. Интересные взгляды на природу случайности и репрезентативности выборочных ансамблей высказывались в работах Ф.Н. Ильясова [81], А.П. Чурикова [280] и М.С. Косолапова [99]. Наиболее полное представление о современных взглядах на проведение выборочных исследований дают известные монографии западных исследований Ф. Йейтса [82], Л. Киша [298] и У. Кокрена [90].

Но и сегодня существует большое число (общих и частных) проблем в методиках анализа реальных социально-экономических данных (как количественных, так и нечисловых).

Изложенные в работе методы анализа неоднородных совокупностей на основе использования случайных выборок позволяют:

значительно повысить точность оценивания и полноту описания предпочтений и ожиданий населения по сравнению с квотными методами при маркетинге потребительских рынков и социальноэкономических обследованиях;

получать количественные результаты при малых объемах выборочных данных, которые невозможно получить при массовом обследовании населения (покупателей, электората), что позволяет повысить адресность и эффективность рекламных и агитационных кампаний, объективность подготовки управленческих решений при проведении социально-экономической политики;

значительно повысить оперативность исследований и существенно снизить затраты на получение фактографической выборочной информации при проведение эконометрических, социальноэкономических, маркетинговых и электоральных исследований за счет случайного формирования выборки.

Изложенный в монографии материал формировался треть века (с 1978 по 2012 гг.) За этот период время автор, в качестве руководителя и непосредственного участника исследований, провел более 50 исследовательских проектов. С 1982 по 1991 гг. было проведено более 20 научно-исследовательских работ (компьютерно-математический анализ данных в технико-экономических исследованиях, анализ и прогнозирование развития радио-электронных технических систем, разработка и обоснование ряда экономических программ и др.) в институтах ВПК СССР.

С 1993 г. по настоящее время были проведены аналитические, социально-экономические и маркетинговые исследования в интересах ряда крупных компаний («Газпром», «Даймлер-Бенц», «Young & Rubicam Inc.», «Регион-Информ», «Пепси-Кола», «Филип Моррис», «Росгосстрах», Саяногорский и Новокузнецкий алюминиевые заводы, «Норильский никель» и др.), ряда крупных газет («АиФ», «Независимая», «Московский комсомолец», «Куранты» и др.), ряда банков и финансово-промышленных групп («Газпромбанк», «Инкомбанк», «Союз-Интеграция», «Менатеп», «Российский Кредит» и др.).

В 1992-1993 гг. по методике, разработанной автором (и описанной в предлагаемой монографии) в режиме реального времени осуществлялось прогнозирование исходов голосований депутатов на VII, VIII и IX Съездах народных депутатов РФ и Конституционном Совещании РФ (1993 г.).

В 1996 году автор был координатором президентской кампании А.И. Лебедя, одновременно осуществляя руководство аналитической работой для этой избирательной кампании. С 1993 по 2001 гг.

были проведены аналитические работы в рамках избирательных кампаний кандидатов в депутаты ГД ФС РФ, губернаторов и мэров в ряде регионов России (Москве, С.-Петербурге, Владимире, Ярославле, Иваново, Мурманске, Пскове, Самаре, Ростове, Новокузнецке, Твери, Кирове, Перми, Красноярске, Иркутске и др., республиках Хакасия и Коми).

В 2011 г. автор руководил и принимал непосредственное участие в исследовании «Особенности региональной специфики и самоидентификации современного казачества Юга России в процессе модернизации гражданского общества» [268, 275-277]. Работа, имея официальный статус «социально значимой», носила комплексный характер и проводилась в качестве президентского гранта в соответствии с распоряжением Президента РФ от 08.05.2010 г. № 300–рп.

Работа состоит из Введения, Заключения, шести глав и списка литературы (305 библиографических ссылок). Каждая глава состоит из четырех разделов, которые, по мере надобности, разделены на пункты. В конце глав кратко сформулированы основные выводы по их содержанию. В Заключении изложены основные результаты проведенных исследований.

Пользуясь случаем, автор выражает глубокую благодарность д.э.н., проф. В.С. Мхитаряну и д.э.н. Л.С. Вартазаровой за многие ценные советы и помощь в работе над этой монографией.

ГЛАВА 1. СТОХАСТИЧЕСКИЕ МЕТОДЫ

В СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЯХ:

СОСТОЯНИЕ И НАПРАВЛЕНИЯ РАЗВИТИЯ

1.1. Специфика использования стохастического формализма в маркетинговых и социально-экономических исследованиях 1.1.1. Математическая и прикладная статистика При практическом использовании количественных методов в эконометрических и социально-экономических исследованиях, как правило, требуется оценить несколько числовых параметров (частоты встречаемости доминант общественного мнения и предпочтений покупателей потребительского рынка, электоральных ожиданий и т.п.). Эти задачи обычно решаются на основе выборочных методик [2, 81, 82, 90, 99, 129-132, 156, 158, 240, 247, 257, 280, 298]. Отметим, что впервые идея выборочного метода, насколько это известно автору, была рассмотрена (в те времена, естественно, только на философском уровне) полтора века назад Огюстом Курно (см. гл.9 его трактата [105]).

Можно утверждать, что «сверхзадачей» прикладной статистики является достаточно точное определение вида распределения на основе имеющихся эмпирических данных (наблюдений выборочного ансамбля). Однако определение (оценка) вида распределения, вопервых, не всегда реальна. Например, в силу малого объема выборочных данных, отсутствия априорных сведений о характере модельного распределения и т.п. Во-вторых, во многих задачах знания распределения и не требуется, а необходимы лишь оценки характеристик этого распределения (моментов, моды, коэффициентов корреляции показателей, значений частот встречаемости признаков и др.).

В этих случаях целью статистической обработки выборочных данных является оценка числовых характеристик распределения случайного вектора и вычисление выборочных статистик.

Статистическое оценивание базируется на законе больших чисел. И это, в частности, означает, что анализируемый случайный выборочный ансамбль должен состоять (теорема Я. Бернулли) из независимых и однородных наблюдений. А условие однородности социально-экономических наблюдений во многих случаях бесспорно не выполняется. Следовательно, важно понимать, в какой мере априорные предпосылки теоремы Я. Бернулли выполняются в конкретной прикладной области исследований. При этом «классические статистические оценки» (выборочное среднее как оценка математического ожидания и стандартное отклонение как оценка корня из дисперсии) являются наилучшими (в широком диапазоне требований) для случая многомерного нормального распределения.

А поскольку математическая статистика долгое время развивалась, главным образом, в связи с проблемой обработки физических измерений, ошибки которых хорошо описываются гауссовой кривой, то методы классической статистики [84,91, 102,107,195,193] базируется на нормальном распределении.

При статистической обработке так называемых «реальных данных», т.е. не относящихся к области измерений в естественных науках, возникает целый ряд принципиальных трудностей [10, 15малые объемы выборок, значительная неоднородность наблюдений, существенные отклонения эмпирических распределений от модельного (обычно, гауссового), наличие неточностей и пропусков значений в таблицах данных, принципиально плохая формализуемость используемых в прикладной работе понятий и категорий.

Но на практике, в эмпирических экономических исследованиях по-прежнему часто используются классические статистические оценки (типа выборочного среднего и стандартного отклонения) на неоднородных данных. Такая ситуация заставила классика статистики ХХ века Джона Уилдера Тьюки с юмором заметить, что «слишком часто статистическую теорию ошибочно называют «математической статистикой», относительно которой многие практики придерживаются той опасной позиции, что научная работа может быть хорошей «математической статистикой», не будучи ни хорошей математикой, ни хорошей статистикой» [188].

В приложениях, за рамками физических и смежных им наук, классические методы статистического оценивания резко теряют свою эффективность и становятся малопригодны для обработки эмпирических данных. В 70-е гг. это заставило понимать под методами прикладной статистики [10-13, 31, 50, 55, 58, 73, 87, 124, 127, 138-141, 169, 171-173, 187-190, 192-193, 202, 203, 206, 207, 220, 222, 234, 245, 261, 286, 293-295, 302, 303] нечто отличное от методов статистики математической. Заметим, что в США и Западной Европе прикладную статистику называют «анализом данных».

Осознание принципиальных различий между методами математической и прикладной статистики в 70-80–е гг. ХХ века стало настолько велико, что распространилось мнение о том, что естественнонаучной традиции более соответствует не теоретикомножественное описание вероятности по А.Н. Колмогорову [92, 96], а ее статистическое описание по Мизесу [120,299] – Смирнову [168] – Виллю-Постникову [149,196,198].

Наиболее аргументировано и последовательно взгляды такого рода отстаивали проф. МГУ В.Н. Тутубалин [186,187] и проф. Ю.И.

Алимов [15-17] (Екатеринбург). В ряде аспектов, связанных с асимптотическими свойствами вероятностных мер, описания по Колмогорову и по Мизесу не вполне эквивалентны, но для приложений это не существенно.

В прикладных работах, в силу закона больших чисел, асимптотические свойства выборочных статистик «напрямую» не зависят того, какие аксиомы заложены в основу стохастической теории. И правомерно не акцентировать внимание на формальной аксиоматике самого понятия «вероятность».

Действительно, наблюдается ли в данном приложении статистическая устойчивость, требуемая по Р. Мизесу, зачастую априори сказать очень трудно. С другой стороны, понятие «пространство элементарных событий», лежащее в основе аксиоматики А.Н. Колмогорова, является чистой абстракцией. Кроме некоторых тривиальных случаев конечных множеств, в природе не существует объектов, адекватных этому понятию.

Подчеркнем, что речь идет именно об описании, а не об определении, «вероятности» по А.Н. Колмогорову или по Р. Мизесу. При этом отметим, что и сам основоположник современной аксиоматической теории вероятностей академик А.Н. Колмогоров серьезно задумывался об условиях и границах приложений вероятностно статистического аппарата [93].

1.1.2. Концепция «анализа данных» Дж.У. Тьюки и статистические методы «с интенсивным применением ЭВМ»

Одно из самых интересных направлений прикладной статистики связано с концепцией «анализа данных», которая была предложена Дж.У. Тьюки [124,188,189,302,303]. По существу, эта концепция является синтезом детерминированных, стохастических и эвристических подходов к анализу выборочных наблюдений. В рамках концепции Дж.У. Тьюки выделяют три этапа анализа данных [188]: 1) «разведочный» («пробный») [189] анализ; 2) стохастический анализ и 3) итоговый.

На этапе пробного анализа [189] данные интерпретируются как числовые массивы, а любые стохастические методы не используются. «К вероятности (в прикладных работах. – авт.) следует относиться серьезно, или оставлять ее в покое, если время от времени это может оказаться полезным или даже необходимым», подчеркивал Дж.У. Тьюки [188]. Цель этого этапа – первичная обработка числовой информации (сортировка данных, «сглаживание» рядов наблюдений, иногда – переход к логарифмическому масштабу). Заметим, что первая книга [10] фундаментального справочного трехтомника [10-12] по методам прикладной статистики С.А. Айвазяна с соавторами практически полностью посвящена методам пробного анализа данных.

На втором этапе работы с данными (собственно «анализ данных»), в рамках концепции Дж.У. Тьюки, используется широкий диапазон методов вероятностно–статистической обработки информации. Включая «стабильные» (устойчивые) [16, 64, 117, 169, 202, 203, 284, 295] робастные и непараметрические (см. ниже) оценки, регрессионные методы [11, 13, 35, 42, 87, 124, 165, 208, 216], анализ временных рядов и последовательностей, методы «с интенсивным применением ЭВМ» [23, 215, 282, 303].

Смысл методов «с интенсивным применением ЭВМ» (не имеющих ничего общего с методом «Монте-Карло») сводится к созданию мощной «вторичной статистики», по которой вычисляются итоговые оценки и определяются их погрешности. Критерии формирования искусственных вторичных данных весьма различаются (несколько подробнее см. ниже).

На третьем этапе «анализа данных» проводится экспертный анализ результатов и их итоговое обобщение. В случае необходимости, на всех этапах исследования возможны итерационные уточнения и обобщения.

Среди методов «с интенсивным применением ЭВМ» наиболее широко используется метод «джекнайф» («охотничий складной нож»), разработанный Дж.У. Тьюки [124,303]. Этот метод хорошо обоснован и может с пользой применяться при анализе «реальных данных». Его суть сводится к следующему.

Пусть имеется выборка n однородных и независимых наблюдений. Исключим из нее m ( m n ) фиксированных наблюдений. По «урезанной» выборке (объема n - m) с помощью некоторой процедуры получим «вспомогательную» оценку (1) искомого параметра и вычислим ее погрешность (1).

Этот прием совершенно правомерен: любые реальные наблюдений из выборки по каким-то причинам могли в нее и не попасть, отказ от части реально имеющейся информации вполне допустим.

Всего исключать из выборки объема n по m наблюдений мы можем Например, при малой выборке n = 25 и m = 3 получаем N = 300. Следовательно, мы можем получить вторичную статистику вида ( (1), ( 2),..., ( N ) ) большой мощности N. Погрешность оценки ( j ) обозначим ( j ) ( j 1, N ). Итоговую оценку определим как некоторый параметр центра для «наблюдений» вторичной выборки { (1), ( 2),..., ( N ) } с итоговой погрешностью, определяемой вектором погрешностей { (1),..., ( N ) }.

В приложениях также широко применяется предложенный Брэдли Эфроном метод «бутстрэп» [282] («вспомогательный шнурок для натягивания сапог», иносказательно - «помогаю сам себе»).

В части метода «бутстрэп» кратко (подробнее см. [215]) можно резюмировать, что этот метод имеет неясную логику процесса создания вторичной статистики.

При использовании генератора случайных чисел «в режиме бутстрэп» [282], исследуемое эмпирическое (и аналитически неизвестное) распределение фактически заменяется равномерным дискретным распределением [215], определенным в точках единственной имеющейся выборки.

Работая именно с этим дискретным распределением, создается чрезвычайно мощная вторичная статистика. Но это значит, что вместо исследования стохастических характеристик изучаемой совокупности, мы заняты изучением свойств самой процедуры «бутстрэп».

Не зря известный специалист по теории вероятностей и прикладной статистике проф. Ю.И. Алимов из Екатеринбурга однажды сравнил метод «бутстрэп» с попытками барона Мюнхгаузена вытащить самого себя за волосы из болота 2.

1.1.3. Непараметрические и робастные методы статистики Как правило, реальные эмпирические данные плохо описываются гауссовой кривой. Причем, точность и стабильность (свойство метода быть слабо чувствительным к нарушениям априорных предпосылок его использования) классических статистических процедур резко падает при отклонениях эмпирического распределения от нормального случая. Но эмпирические распределения случайных экономических, технико- и социально- экономических величин (часто положительно определенных), как правило, асимметричны и имеют ненормальный эксцесс, обладая правыми «тяжелыми хвостами», в связи с чем классические статистические оценки зачастую оказываются весьма неточными и нестабильными.

В этой связи в 40-60-е годы ХХ века возник острый интерес к статистическим методам, «свободным от распределения». Из свободных от распределения методов наиболее развит аппарат непараметрической статистики [141,172-175,190,192,193,293], к которому, в частности, относятся процедуры рангового оценивания. Для использования непараметрических процедур не требуется знания вида модельного распределения, обычно предполагается только наличие каких-то (весьма общих) требований. Например, часто требуют непрерывность и ограниченность функции плотности вероятности (ФПВ) и ее первых производных, наличие не более, чем счетного, числа точек разрыва ФПВ, конечность первых моментов распределения.

Из личной переписки автора с Ю.И. Алимовым, 1986 г.

Следовательно, «свободный от распределения» - понятие более сильное, чем «непараметрический», хотя на практике эти термины часто используются как синонимы. Прагматически важно, что непараметрические процедуры, не требуя априорных знаний об изучаемом эмпирическом распределении, обладают высокой устойчивостью, несмещенностью и достаточно эффективны (или асимптотически эффективны).

Например, коэффициент ранговой корреляции свободен от распределения, не зависит от случайных вариаций переменных и его значение сохраняется для любых монотонных преобразований переменных. А это очень кстати при работе с распределениями, обладающими «тяжелыми хвостами». И эта оценка весьма эффективна ( E r 9 / по отношению к оценке корреляционного момента r для нормального случая) [293].

Из фундаментальных трудов по непараметрической статистике следует выделить отечественные монографии Ф.П. Тарасенко [172,173] и Ю.Н. Тюрина [190,192,193], а также перевод монографии М. Холлиндера и Д. Вульфа [206].

Отметим и монографию Я. Гаека [293], которая может служить первоклассным пособием для систематического начального изучения непараметрической статистики. К сожалению, перевода на русский язык этой монографии не существует. Есть перевод его совместной с З. Шидаком книги [43]. Но эта работа, требуя хорошей математической подготовки читателя, касается только описания и свойств ранговых критериев, а не их использования при построении процедур оценивания.

Крупнейший российский специалист по прикладной статистике Ф.П. Тарасенко подчеркивал, что непараметрические методы явились «сверхреакцией» математиков на тот факт, что эмпирические распределения обнаруживают большие отклонения от нормального случая. Ф.П. Тарасенко отмечал: «Создалось впечатление, что в статистических работах, выходящих за рамки физических измерений, мы вообще ничего не знаем о виде эмпирического распределения. В результате, в середине XX в., стал активно разрабатываться аппарат непараметрической статистики. В ходе этих работ выяснилось, что некоторые общие свойства реальных распределений все же можно выделить» 3.

В итоге появился аппарат робастной статистики [31,55,63Термин «робастный» (по-русски, наиболее близко, «крепкий, прочный») был введен Г. Боксом для обозначения свойств статистической процедуры быть, во-первых, достаточно эффективной в идеальных условиях (при строгом выполнении априорных требований) и, вовторых, быть стабильной (слабо чувствительной к отклонениям от идеальных условий). Приведенное «определение» робастности носит описательный характер. Поскольку в каждом конкретном случае требуется оговорить, во-первых, в каком смысле понимается стабильность процедуры и, во-вторых, как сравнивать эффективность методов. После чего можно делать заявления вида «эта процедура более робастна, чем та».

Можно считать, что робастные методы «по степени свободы от распределения» занимают «промежуточное» положение между непараметрическими и классическими процедурами статистики.

Во многих случаях робастные методы опираются на представление изучаемого распределения как смеси базового с небольшой «добавкой» засоряющего распределения, т.е. модель распределения имеет вид где G(x) - «основное», а Н(х) – «засоряющее» распределение. В качестве Н(х) на практике часто используют равномерное распреЦитируется по выступлению Ф.П. Тарасенко на одном из заседаний 5-й Всесоюзной школы – семинара по непараметрической и робастной статистике (Шушенское, 1985 г.). Попутно отметим, что выдающийся сибирский ученый Ф.П. Тарасенко в 1994 г. был официально признан «Человеком года» в США. В настоящее время Феликс Петрович возглавляет Международный факультет управления Томского госуниверситета.

деление. Первым модель такого типа предложил все тот же Дж.У. Тьюки, который использовал распределение вида:

Здесь основное распределение является гауссовым:

с математическим ожиданием и дисперсией, а в качестве «засорения» используется также нормальное распределение с тем же значением математического ожидания, но с дисперсией, в 9 раз большей, чем у основного распределения. Эта модель широко использовалась в эконометрических исследованиях в 70-80-е гг.

Возникновение строгой теории робастности связано с именем П. Хубера [207,286,295], который в 1964 году доказал теорему, положившую начало оптимизационному подходу к робастности. Питер Хубер рассматривал случай, когда основное и засоряющее распределения были симметричны. Для таких распределений в общем случае можно записать: F(х, ) = F (х - ).

Теорема Хубера, используя условие f ( x j ) 0, по выборке значений { x j ; j 1, n } позволяет получить состоятельную оценку математического ожидания. Здесь f – функция плотности вероятностей (ФПВ) распределения, которое обеспечивает оценку с наименьшим средним квадратом смещения при наихудшем засорении.

В несколько упрощенном виде теорема Хубера указана в учебном пособии [55, п. 9.3]. Математически строгое изложение минимаксного (оптимизационного) подхода к построению робастных оценок приведено в монографиях Ф. Хампеля с соавторами [203] и П.Дж. Хубера [207].

В России пионером робастной статистики стал Л.Д. Мешалкин [117-119], разработавший робастный метод экспоненциального «провешивания» наблюдений [119], который сохранил в эконометрии свое прикладное значение до нашего времени Принято выделять существование трех классов робастных методов статистического оценивания:

минимаксные (оптимизационные или М - оценки), линейные комбинации порядковых статистик (L -оценки) и процедуры, основанные на ранговых критериях (R - оценки).

Оптимизационные оценки основаны на минимаксном подходе П. Хубера [207]. Этот класс оценок наиболее часто используется на практике. М-оценки допускают обобщение на многопараметрический случай, но не являются инвариантными относительно выбора масштаба.

Линейные комбинации порядковых статистик. Искомый параn метр Т оценивается по выборке в виде Tn nj h( x( j ) ), где h( x( j ) ) - некоторая функция порядковых статистик, выбираемая для разных L- оценок из различных соображений. Наиболее часто стремятся минимизировать дисперсию оценки Tn. Иногда на практике используют упрощенную модель, принимая h( x( j ) ) x( j ), что дает оценку Tn nj x( j ).

Оценки, основанные на ранговых критериях [43], в общем виде позволяют получить искомую оценку Tn сдвига («центра», параметра положения) распределения Т при помощи функционала J(T), используя решение неявного уравнения вида где вид функционала J(T) определяется используемым в конкретном исследовании ранговым критерием. Например, использование рангового критерия Уилкоксона [43] приводит [55, п. 9.3] к функционалу J (t ) t 1 2, который дает простую и надежную оценку Ходжеса - Лемана:

Великолепными введениями в теорию робастности служат обзоры Ф. Хампеля [202,294], П. Хубера [295], А. Ершова [64], а также книга С.А. Смоляка и Б.П. Титаренко [169], не устаревшие за треть века. Особо выделим совместную работу [286] ряда западных статистиков, изданную Принстонским университетом. Но эта работа, хотя все ее авторы давно получили мировое признание и считаются классиками статистической науки ХХ века, на русский язык никогда не переводилась.

Сегодня робастные методы разработаны не только для оценки характеристик распределений, но и для регрессионных задач (см.

гл. 7 монографии П. Хубера [207]), и для анализа временных рядов.

Этот аппарат наиболее полно отражен в монографии Г. Бриллинджера [36].

Ф. Мостеллер и Дж. Тьюки писали: «Слово «нормальное» многие неверно толкуют как «обыкновенно появляющееся», однако известно, что на практике никогда не бывает распределений, в точности удовлетворяющей этой формуле (гауссовой кривой. – авт.)»

[124].

Отсюда следует вывод, что при работе с реальными данными (в том числе – с экономическими, технико- и социально-экономическими) гораздо надежнее использование не классических, а непараметрических или робастных статистических процедур. Даже простейшие из них (например, виндзорированное среднее или медиана) позволяют получать весьма точные и стабильные результаты в эконометрических и социально-экономических исследованиях.

1.1.4. Методы непараметрического оценивания В прикладных исследованиях, по-видимому, наиболее часто используются оценки типа Розенблатта – Парзена (см. [173, гл. 7, 8]).

Коротко остановимся на методике построения процедур этого типа. Пусть m-мерный ( 1 m ) случайный вектор x предm ставлен выборкой независимых наблюдений xk ; ( j 1, m; k 1, n), где n - мощность выборки. Вектор x обладает функцией плотности вероятностей (ФПВ) f (x), непрерывной и ограниченной в m. Зафиксируем в m некоторую точку X и обозначим rk расстояние от X до вектора наблюдений xk ; (k 1, n). Расстояние понимается в смысле любой метрики, в частности, m-мерной евклидовой. Выберем константу оценивания s n ; 0 c 0.5. (1.1.1) Упорядочив r k, получим вариационный ряд вида Оценку Розенблатта - Парзена для ФПВ f ( X ) построим в виде где Vm - объем гиперсферы в m с центром в X и радиусом r ( s), а ядерная функция J (y) должна удовлетворять условиям:

Дальнейшая конкретизация вида РП-оценок обычно связана с каким-либо критерием оптимизацией. Укажем простые и надежные результаты, полученные В.А. Епанечниковым [62].

потребуем J 2 ( y)dy min. (1.1.4) Фактически этими условиями мы стремимся минимизировать дисперсию оценки (1.1.2) за счет некоторых разумных ограничений на ядерную функцию J (y). В итоге получаем:

Заметим, что в изложенном методе оценивания не предполагается независимость компонент изучаемого стохастического вектора, что имеет существенное значение для его использования в прикладных работах.

1.2. Дихотомизация описания социально-экономических с эмпирическими нечисловыми данными Традиционно данные подразделяют на два больших класса – количественные и качественные. Количественные данные представляют собой массивы действительных чисел. Качественные данные являются свойствами наблюдений, которые в числах (по крайней мере, в традиционном понимании) не выражаются. Например, мы обследуем выборку москвичей. Каждое «наблюдение» этой выборки обладает числовыми характеристиками (рост, доход, возраст, объем грудной клетки, вес, размер обуви и т.п.) и качественными (нечисловыми – национальность, темперамент, сфера занятости, профессия, семейное положение, партийность, район и условия проживания и др.).

Измерение в сильных шкалах, по сути, представляет собой сопоставление результата опыта с некоторым эталоном 4, в качеСовременная математика родилась в трактате Р. Декарта «Геометрия»

(изданном в 1637 г. в Париже), где были изложены переосмысленные Р. Декартом базовые принципы античной математики. Не вдаваясь в тонкости вопроса, подчеркнем, что для натуралистически мыслящих древнегреческих философов понятие числа «нуль» было нонсенсом [227, гл.2,3,Заключение]. Естественно, в «Началах» Евклида о математической точке, линиях и поверхностях нулевой толщины не могло быть и речи.

Понятие числа «нуль» (вместе с основами алгебры) пришло в Европу от арабов (из мавританских университетов) в начале XII века. Р. Декарт использовал его в своем переосмыслении «Начал» Евклида. Кроме того, Р. Декартом были введены понятия функции и переменной величины.

В итоге Р. Декарт описал в трактате «Геометрия» свое видение евклидовой геометрии, по существу радикально отличающееся от понимания «геометрии»

самим Евклидом. (Автором использована работа: Матвеенков А.Т. «К вопросу реконструкции некоторых забытых «Начал» Евклида». М., рукопись, 1997).

Переосмысливание основ античной математики Р. Декартом привело к принципиально новому пониманию самих категорий «единица» и «число». В стве которого можно выбрать любые оговоренные объекты (рубль или доллар, метр или световой год, тонна или масса покоя электрона и т.д.).

В том случае, если в одном и том же наблюдении измеряются несколько количественных и/или качественных признаков, говорят о наличии векторного измерения. Причем (с позиций математической теории и здравого смысла) наблюдения в выборке должны быть однородны. Это условие является непременной априорной предпосылкой использования стохастического формализма в приложениях (см. п. 1.1). Следовательно, начальным этапом любого статистического исследования, является составление методики получения и описание результатов наблюдений.

В прикладной статистике иногда применяется процесс цензурирования данных. В этих случаях из выборочного ансамбля исключаются некоторое (небольшое) число наблюдений (измерений).

Причем цензурированные данные могут быть как количественными (числовыми), так и качественными. Процесс цензурирования может осуществляться как из формальных (например, исключение «грубых выбросов» значений), так и из неформальных соображений.

Например, мы рассматриваем последовательность экономических показателей о некоторой отрасли промышленности России. Но имеет смысл рассматривать ретроспективные данные только с г. по настоящее время. В 1998 году (в силу дефолта) произошел «скачок в развитии» (термин, принятый в прогнозировании), вследствие чего данные до 1999 года описывают некоторую иную (чем рамках античной традиции «число» - это количество естественных «единиц», изначально возникших при создании Мироздания [110].

После переосмысления основ математики Р. Декартом «под числом мы понимаем не столько множество единиц, сколько отношение некоторой величины к другой величине того же рода, принятой (курсив мой. – авт.) нами за единицу» (И. Ньютон, «Всеобщая арифметика или книга об арифметических синтезе и анализе»).

ныне) экономическую систему. И не могут быть корректно использованы в проводимом исследовании.

Для измерения признаков, зафиксированных в наблюдении, применяются различные шкалы. Каждый из используемых типов шкал определяет группу допустимых преобразований этой шкалы.

Основное требование, принятое в теории измерений [141, гл.1;

153,180-182], гласит: выводы, полученные на основе данных, измеренных в некоторой шкале, не должны измениться при допустимом преобразовании этой шкалы.

Шкалы измерений подразделяют на сильные и слабые. В сильных шкалах измеряются количественные признаки, в слабых – качественные. К сильным шкалам относятся абсолютные и интервальные шкалы, шкалы разностей и отношений. К числу основных слабых шкал относятся ранговые и порядковые, а также шкалы наименований (или номинальные шкалы), которые предназначены для классификации наблюдений.

Абсолютные шкалы – это числовые шкалы, которые подразделяют на дискретные (с конечным или счетным числом значений) и недискретные. Из недискретных шкал наиболее часто используются непрерывные шкалы и шкалы, у которых не более чем счетное число разрывов справа, но слева во всех точках разрыва они непрерывны. Для абсолютных шкал допустимы только тождественные преобразования.

Интервальная шкала образуется из абсолютной путем ее разбиения на конечное или счетное число непересекающихся интервалов. Таким образом, интервальная шкала представляет собой некоторое «огрубление» абсолютной, производимое в силу практических потребностей. Скажем, при построения непараметрических оценок плотности функции вероятностей непрерывной стохастической переменной (гистограммы или полиграммы) ось действительных чисел разбивают на конечное число интервалов. В шкале интервалов измеряются величины, для которых не удается указать ни естественное начало координат, ни естественную единицу измерения. Пример – положение точки на прямой. Для шкал интервалов допустимы любые монотонно возрастающие преобразования.

Для шкалы разностей характерно отсутствие «естественного»

нуля (начала координат), но зато существуют «природные» единицы измерения. Как указывает А.И. Орлов [141, гл.1], мировое время измеряется в шкале разностей. С этим, вообще говоря, следует согласиться. Поскольку существуют естественные единицы измерения (сутки, стабильные периоды колебаний в молекулах и атомах и др.), но естественное начало отсчета времени сегодня точно указать нельзя.

Хотя существует космологическая теория возникновения Вселенной в форме «большого взрыва» Дж. Гаммова, но пока нет методологии определения промежутка времени от состояния сингулярности, породившей «большой взрыв». Можно лишь утверждать, принимая различные априорные предпосылки [227], что Вселенная существует порядка 9 - 14 млрд. лет.

Для шкалы отношений характерно наличие естественного нуля, но отсутствует естественная единица масштаба. В этих шкалах измеряются многие экономические (курсы валют, цены и ценности товаров, потребительский излишек и прибыль, энергозатраты, объемы производства, макроэкономические коэффициенты и др.) и физические (масса, заряды, потенциал силового поля, импульс, теплопроводность и т.п.) величины.

Пример – измерение температуры в абсолютной шкале Кельвина. Для шкал отношений допустимы преобразования подобия (когда меняется только масштаб измерений).

Заканчивая эти замечания о статистических данных, отметим, что объектом приложения аппарата прикладной статистики являются:

числа и конечномерные векторы, случайные процессы и временные ряды, нечисловые (качественные) данные.

Важным разделом прикладной статистики служит нечисловая статистика [18,25,106,121,122,139-141,153,154,177-182,191,192], где работают с данными, которые не могут быть выражены в числах. В нечисловой статистике исключительную роль играет понятие бинарного отношения [32,221,233] на множествах. Оно тесно связано с предельным случаем шкалы наименований – дихотомическими (булевыми) шкалами. Если в каждом из наблюдений х заданного множества X либо фиксируется некоторое свойство y, либо фиксируется его отсутствие, то шкала измерения y – булева (дихотомическая).

Пусть есть серия наблюдений, в которых измерялась случайная величина Х. Упорядочив полученные в наблюдениях значения по возрастанию, получаем вариационный ряд вида Элементы вариационного ряда x(k ) ( k 1, n ) называются порядковыми статистиками [59]. Для простоты изложения мы не рассматриваем случаи, когда имеются «связки» x(k ) x(k 1). Номер k наблюдения x (k ) в вариационном ряду (1.2.1) называется его рангом [43, 86,173, 181, 182, 233]. Переход от выборочных значений измеряемой переменной к ее рангам, которые, по сути, и образуют ранговую шкалу измерения, резко стабилизируя данные, часто бывает полезен в приложениях.

Таким образом, порядковая шкала на абстрактном множестве порождается отношением строгого (или частичного) порядка. Пример: места претенденток на конкурсе красоты. При этом можно сказать, какая из двух участниц конкурса «лучше» (в оговоренном смысле). Но в принципе не ставится вопрос о том, «насколько она лучше».

По сути, переход от вариационного ряда к ранговой шкале является биективным отображением упорядоченного ряда измерений на первые члены натурального ряда. Допустимыми преобразованиями для порядковых шкал являются любые строго возрастающие преобразования.

Пусть заданы два абстрактных множества X и Y. Декартовым (или прямым) произведением X * Y множеств X и Y называется множество всех упорядоченных пар вида (x,y), где x принадлежит X, а y принадлежит Y. Например, декартовым произведением множества * действительных чисел является плоскость с декартовыми координатами. Бинарным отношением А на множествах X и Y [32,221,233] называется любое множество упорядоченных пар вида (x,y), где x X и y Y. Если (x, y) A, то x находится в отношении А к y, что записывается в виде x A y. В противном случае записывают xAy.

Замечания. 1) Из сказанного ясно, что всякое бинарное отношение А на множествах X и Y определяет некоторую функцию f : X Y тогда и только тогда, когда 2) Понятно, что любая функция f : X Y всегда задает бинарное отношение на множествах X и Y. Таким образом, понятие функции является частным (хотя и очень важным) случаем бинарного отношения на множествах.

Пусть даны множества X {x1,...,xm} и Y { y1,...,yn}. Тогда матрицей бинарного отношения А на множествах X и Y называется матрица a jk, размерностью m на n, элементы которой имеют вид Замечание. Любая матрица m на n, состоящая из нулей и единиц, определяет некоторое бинарное отношение на соответствующих множествах. Поэтому любую такую матрицу называют матрицей бинарного отношения. Матрицу бинарного отношения можно рассматривать как частный случай числовых данных.

Статистический анализ качественных признаков неразрывно связан с обработкой разнотипных переменных. Методы решения этой проблемы могут быть связаны с двумя альтернативными подходами. Во-первых, процедуры «оцифровки» слабых переменных [106,121,122]. Но объективно усилить шкалу измерения трудно, и тип «оцифровки» влияет на итоговые результаты. А усиление шкалы измерения является «домысливанием за Природу» каких-то свойств изучаемой системы.

Во-вторых, подход, основанный на «дихотомизации» (на ослаблении всех переменных до булевого уровня) с соответствующим увеличением размерности пространства признаков.

Идея состоит в том, что сложный объект можно с примерно равной информативностью описать или небольшим числом сильных переменных, или большим числом слабых. Эта мысль близка взглядам Ог. Курно, которые он полтора века назад изложил в трактате [105]. По Ог. Курно, любое сложное свойство объекта может быть представлено как суперпозиция его более простых свойств. Каждое из этих «более простых» свойств является комбинацией «еще более простых» и т.д. Таким образом, имеется возможность декомпозиции свойств объекта до некоторого «элементарного» уровня.

При составлении опросной анкеты любой маркетолог или социолог всегда следует по пути, указанному Ог. Курно, реализуя дихотомизацию описания социума. Изучение аспектов проблем доводится до того «элементарного» уровня описания, который считается достаточным для практических выводов. Можно утверждать, что принцип дихотомизации переменных является основным методом формализации описания в любых эмпирических социально– экономических, маркетинговых и социологических исследованиях, основанных на выборочном методе.

Интересный взгляд на социологическое измерение был высказан Ю.Н. Толстовой и Е.В. Масленниковым [183], который состоит в том, что в широком, фактически – в философском, смысле само «социологическое исследование» можно понимать как «измерение»

состояния социума.

1.3. Проблема полноты и достоверности таблиц эмпирических данных. Статистическое прогнозирование в экономических и технико-экономических исследованиях В эконометрических, социально- и технико-экономических исследованиях, как правило, базой для математического анализа информации служат таблицы эмпирических данных, трактуемые как выборка из изучаемой генеральной совокупности.

При этом, как свидетельствуют многие отечественные и зарубежные авторы [71, 73, 109, 159-161, 209, 234, 244, 256], такие эмпирические таблицы часто оказываются неполными (содержат пропуски значений показателей для некоторых наблюдений) и обладают существенной недостоверностью (часть данных неточна – ошибки ввода данных в базу ЭВМ, случайно неточные сведения, умышленная дезинформация).

Понятно, что проблема выявления недостающей и недостоверной информации в эмпирических матрицах данных является неотъемлемой частью первичной [10,189] статистической обработки данных во всех прикладных эмпирических работах.

Первым среди отечественных специалистов эту проблему решил Н.Г. Загоруйко, который совместно с сотрудниками ИМ СО АН СССР разработал алгоритм «ЗЭТ» («заполнение эмпирических таблиц») [71]. В 70-80-е гг. ХХ в. алгоритм «ЗЭТ» очень широко использовался в прикладных эконометрических исследованиях.

Идея алгоритма «ЗЭТ» состоит в том, что таблицы данных являются «избыточными» (за счет корреляций между столбцами и между строками матрицы данных), что позволяет оценить недостающие значения показателей. Впоследствии группа новосибирских математиков под руководством Н.Г. Загоруйко получила серьезные результаты в распознавания образов и выявления эмпирических зависимостей [72-74].

По существу, любая статистическая методология анализа эмпирических таблиц с целью выявления недостающей и ложной информации базируется на том, что, во-первых, числовые показатели, как правило, попарно коррелированы, и, во-вторых, наблюдения в таблице обладают мерами «подобия», которые также поддается формализации в стохастических терминах.

Существенную роль играет предпосылка о том, что значения показателей в эмпирических таблицах измерены в интервальных шкалах [141, гл.1], что делает допустимыми любые монотонно возрастающие преобразования переменных.

Традиционно одной из основных прикладных задач эконометрики было прогнозирование экономической динамики. В целом эта задача хорошо проработана [26, 33, 40, 41, 48, 53, 56, 57, 111-113, 268, 279, 281, 285]. Наряду с эвристическими методами [281, 285], среди методов количественного прогноза [113, 218, 219, 279] широко используются статистические методы [11, 13, 19, 40, 48, 53, 55Статистическое прогнозирование, по сути, сводится к экстраполированию и интерполированию временных последовательностей [56, 67, 94, 111-113] стохастически взаимосвязанных экономических показателей (т.е., по существу к статистическому прогнозированию случайных процессов с дискретным временем).

Используют и спектральный анализ временных рядов [19,47,85,279]. Но применение этого подхода требует весьма большой ретроспективы наблюдений (не менее 50 точек замера). Здесь следует отметить монографию Г. Бриллинджера [36], одного из самых интересных учеников Дж.У. Тьюки, в которой, кроме классических методов анализа временных рядов, описаны и соответствующие робастные процедуры.

Идея интерполирования и экстраполирования стационарных случайных последовательностей принадлежат А.Н. Колмогорову [94]. В рамках предложенного им подхода на сегодня разработано множество статистических методов экономического прогнозирования.

Но при этом вопрос о корректности применения методов статистического прогнозирования часто остается вне поля зрения исследователей. Хотя сам А.Н. Колмогоров обращал на это особое внимание [93].

Часто в приложениях имеется лишь очень короткий ретроспективный ряд (до 10 наблюдений). В этих случаях безнадежно искать «наилучший» аналитический вид тренда, требуются более «тонкие»

методы выявления и экстраполирования тенденций (см. например, [67,111,112,211, 211,218-220,236, 239,264,272]).

В связи с чем в настоящее время крайне актуальна и своевременна разработка методов и алгоритмов непараметрического прогнозирования коротких последовательностей (на «шаг» по 5- точкам).

1.4. Статистическая классификация многомерных неопределенности, нечеткости и случайности Первый этап становления любой области знания как науки неизбежно начинается с решения проблемы систематизации объектов ее изучения. Процесс систематизации (классификации) объектов имеет огромное практическое значение, суть которого очень точно описал проф. Ю.П. Адлер: «Данные наступают на нас со всех сторон. Они накапливаются в темпе, значительно опережающем нашу способность их ассимилировать и использовать. Мы их «складируем впрок», порождая огромные архивы и сложнейшие проблемы хранения, переработки, поиска и использования всего того, что нам удалось «узнать». Значит, с данными нужно что-то делать. Но «делать» - это означает, насколько возможно, сократить их количество и при этом не потерять слишком много «полезной информации», потенциально в них заложенной» [3]. Следовательно, классификация – это процедура упрощения массива данных, направленная на облегчение его анализа и содержательной интерпретации.

Отметим, что существуют разные подходы к систематизации сложных многомерных объектов, которые определяются различными терминами: классификация, типологизация, таксономия, кластеризация и др., причем общепринятого понимания в использовании этой терминологии на сегодня не существует. Но количественная таксономия и кластерный анализ не занимаются распределением объектов по заранее заданным классам, что относится к задачам тпологизации [78, 144, 176, 181, 199, 201] и дискриминантного анализа [30, 49], а устанавливают неизвестную классификацию. Которая, как правило, оказывается не единственной, а ее результаты редко удается рассматривать как выявление внутренней структуры, отражающей «фундаментальные» свойства изучаемой области знания [183].

Различают два принципиально разных подхода к систематизации: исключающие и неисключающие классификации. При исключающей классификации один объект может быть отнесен только к одному из классов (таксонов). При неисключающей классификации объект может быть отнесен к нескольким классам. Развитием идеи неисключающей классификации явилась теория нечетких (размытых, расплывчатых) множеств Л.А. Заде [77, 101].

Исходная идея нечетких множеств самим Л. Заде [77] была сформулирована следующим образом: «Для данного объекта x и заданного класса Y в большинстве случаев вопрос состоит не в том, принадлежит ли x к Y, а в том, насколько x принадлежит к Y». Для формализации этого взгляда на классификацию Л. Заде «размыл»

индикатор принадлежности заменив его лингвистической переменной [76] (или, как синоним, функцией нечеткой принадлежности), которая определяется в виде k : x j [ 0,1 ]. Таким образом, k ( x j ) определяет меру принадлежности элемента x j заданному подмножеству которая, поXk, добно вероятности, не превосходит единицу.

Пример. Пусть Х - нечеткое множество «сторонники партии “Единая Россия”» (ЕР). Некоторым образом установлено формальное правило, которое задает размытый индикатор принадлежности к этому нечеткому множеству. Господин x1 стал членом партии ЕР и всегда участвовал в ее мероприятиях. Оказалось, что ( x1 ) 0.95.

Гражданин x2 в ЕР не состоит, но всегда голосует за ЕР. Для него ( x2 ) 0.65. Субъект x3 на голосования и мероприятия ЕР не ходил (было лень), но в кругу семьи он всегда говорил, что «Путин и Медведев - это намного лучше, чем коммунисты и национал - патриоты». Его лингвистическая переменная ( x3 ) 0.35. Товарищ x всегда голосовал против ЕР и ее политики, в связи с чем:

( x4 ) 0.05. А маргинал x5 регулярно участвовал в демонстрациях и митингах протеста против политики «Единой России», для него ( x5 ) 0.00.

Несложно заметить сходство лингвистической переменной с функцией плотности вероятностей (или самой вероятностью в дискретном случае). Есть и различие: функция распределения всегда нормирована к единице, а сумма S всех значений (или, в общем случае, интеграл Лебега по лингвистической переменной ) может быть любым неотрицательным числом S 1. Однако, несложно нормировать сумму ( x j ) к единице, просто разделив каждое значение лингвистической переменной на S.

Таким образом, в достаточно общем виде можно считать, что и вероятность, и нечеткая принадлежность представляют собой меры, суммы которых нормированы к единице.

В этой связи уместно вспомнить, что в начале 80–х гг. среди советских специалистов, связанных со статистическим анализом социально–экономических данных, это обстоятельство привело к острой дискуссии 5: а «стоит ли» вообще рассматривать «нечеткие множества», если есть теория случайных множеств [115].

Дискуссия не привела к консенсусу, вопрос актуален и сегодня.

Например, в современной монографии А.И. Орлова [141, п.4.6], известного специалиста по прикладной статистике, содержится материал «о сведении нечетких множеств к случайным». Математически корректно А.И. Орлов показывает, каким образом нечеткие множества можно рассматривать как некоторые проекции случайВ начале 80-х гг. этот вопрос активно обсуждался на научном семинаре по прикладной статистике и многомерному анализу данных под руководством проф. С.А. Айвазяна и проф. Ю.Н. Благовещенского. Этот семинар успешно функционирует в ЦЭМИ РАН и поныне.

ных множеств. Формально его выкладки безупречны, но содержательно взгляды А.И. Орлова неверны.

Коротко остановимся на обсуждении этого вопроса.

Есть абстрактное множество Х и элемент x. Мы не знаем точно, принадлежит ли x к Х, но можем оценить вероятность этого события ( x) Pr { x X }. Пара ( X, ), т.е. множество элементов { x } с заданными вероятностями принадлежности (x), называется случайным множеством. Математически случайное множество является измеримым отображением одного вероятностного пространства на другое [97] (часто, само на себя).

Приведем несколько примеров случайных множеств.

(а) В геологических районах { x } по предварительным данным может быть нефть. По косвенным признакам оценили вероятности этих событий (x). Набор пар { x, ( x) } образует случайное множество.

(б) Данные радиолокации противолодочного корабля показывают, что наблюдаемая цель x с вероятностью (x) является подводным крейсером США. Набор пар { x, ( x) } образует случайное множество.

(в) По результатам исследований (скажем, анализу ДНК) на основании некоторой методики оценивается вероятность (x) того, что отцом данного ребенка является гражданин x. Набор пар { x, ( x) } также образуют случайное множество.

Представляется очевидным, что по смыслу нечеткое множество не может рассматриваться как множество случайное.

В рассмотренных случаях: (а) в данном районе либо есть нефть, либо ее нет; (б) данная подлодка или является подводным крейсером США, или нет; (в) у ребенка есть только один отец. Следовательно, в реальности все указанные выше множества { x } являются обычными, а не размытыми (нечеткими) множествами. А понятие вероятности (x) появляется не в силу «фундаментальных» свойств рассматриваемых множеств, а в силу нашей неполной информированности об элементах этих множествах.

Следовательно, в любом случайном множестве { x, ( x) } вероятность (x) служит не объективной мерой принадлежности х к Х, а мерой нашей осведомленности об этом событии.

О субъективных вероятностях такого рода Анри Пуанкаре писал [151]: «Однако можно оставить в стороне слабость человеческой природы: то, что представляется случайным для человека необразованного, отнюдь не будет таковым для ученого. Случайность, таким образом, служит как бы мерой нашего невежества (курсив мой. – авт.)». Отсюда следует вывод: нет оснований подменять смысл лингвистической переменной мерой, описывающую степень субъективной информированности о принадлежности данного элемента к заданному множеству.

Сравните: (а) Иванов «толстый» с мерой 0.9; (б) Петров «богат»

с мерой 0.5; (в) Сидорова «красива» с мерой 0.1; (г) Козлов «храбр»

с мерой 0.01. Это не характеристики нашей субъективной осведомленности о свойствах субъектов, а их объективные характеристики, выражаемые соответствующими предикатами. Которые, в данном конкретном случае, означают: (а) Иванов очень тучен; (б) материальное положение Петрова весьма среднее; (в) Сидорова внешне крайне непривлекательна; (г) Козлов патологически труслив.

Можно возразить: совершенно неясно, как задавать эти «объективные» характеристики. Ответ очевиден: по оговоренной методике. Это нормально, ведь и вероятности для случайных множеств вычисляются не по законам Божьим, а по некоторым когда-то, кемто и как-то обоснованным методикам. Более того, вопросы унифицированного построения лингвистической переменной (т.е. оценки уровней принадлежности), как и ее измерения, были весьма полно проработаны еще в 80-е гг. прошлого века (см., например, [34,88,101,104,114,136,137,283]).

Возвращаясь к точке зрения А.И. Орлова, отметим, что формально его выкладки абсолютно корректны, но его логика неверна.

В рамках естественнонаучной традиции, ни при каких обстоятельствах изящную математическую абстракцию нельзя ставить выше содержательного смысла изучаемого явления.

Рассуждая по аналогии с позицией А.И. Орлова, и понятие вероятность вводить незачем. Вполне достаточно рассматривать меру, нормированную к единице, на множестве с заданной на нем сигма – алгеброй. Но понятие вероятности несет колоссальную смысловую нагрузку, в связи с чем ее смысл не сводим к определению формальной меры на множествах. Тем более, что теоретикомножественное описание (а не определение!) вероятности по А.Н. Колмогорову - не единственно возможный путь формализации понятия вероятности [15-17,149,166,186,187,196,198].

Ввиду важности вопроса для экономических исследований, необходимо, прежде всего, ясно осознать истоки самого понятия неопределенности, которое лежит в основе восприятия человеком событий (наблюдений, опытов) с неясным исходом. Автором проблема соотношения между понятиями неопределенности, случайности и нечеткости рассматривалась в работах [253, 255, 258, 264, 273]. По видимому, наиболее объективна точка зрения М. Гупты [292], считающего, что неопределенность бывает двух видов, связанных, (1) со стохастическим поведением изучаемой системы (по сути, со случайностью), и (2) с принципиально плохой формализуемостью понятийных категорий, а также с ограниченными возможностями человеческих восприятий и рассуждений (по существу, с нечеткостью).

В каждой неопределенности в этом мире (в том числе – в социально-экономических областях) всегда присутствует или случайность, или нечеткость, или их одновременное проявление.

Хотя, существует достаточно обоснованное мнение, что разработки в области теории нечеткой меры [34,88,104], сделанные в связи с созданием основ теории возможностей Д. Дюбуа и А. Прадом [61], позволяют с некоторым оптимизмом смотреть на перспективы создания единой теории неопределенности. Правда, сразу подчеркнем, что теория возможностей является альтернативой теории вероятностей, поскольку выражает и случайность, и нечеткость только через меры нечеткости [60]. Тем самым, в рамках теории возможностей, случайность сводится к нечеткости, реализуя альтернативу взглядам А.И. Орлова, которые были рассмотрены выше.

В рамках сегодняшнего развития математики представляются совершенно бессмысленными любые попытки сведения понятия нечеткости к случайности и наоборот.

Понятно, что «вероятностная» модель неопределенности плохо работают в тех случаях, когда в неопределенности доминирует нечеткость описания и смысловых представлений изучаемых явлений. И наоборот, «возможностная» модель неопределенности плохо приспособлена для описания систем, в базовой основе неопределенности поведения которых лежит стохастическая природа исследуемой системы.

Выводы по главе 1.

В результате обсуждения тематики главы 1 можно отметить:

1. Социально–экономические законы носят вероятностный характер и, следовательно, наиболее адекватно могут описываться именно в стохастическом смысле. Но в прикладных работах, за рамками естественных наук, классические статистические процедуры, которые в широком смысле являются наилучшими (при наличии многомерного гауссового распределения), резко теряют свою эффективность. С начала 70-х гг. XX в. это заставило понимать под методами прикладной статистики, которые на Западе чаще называют методами анализа данных, нечто отличное от методов математической статистики.

2. Процедуры прикладной статистики ориентированы на обработку небольших массивов неоднородных (структурирован-ных) данных. Понимание принципиальных различий между математической и прикладной статистикой в начале 70-х гг. стало так велико, что появилось мнение (которое и сегодня разделяют некоторые специалисты по стохастическим приложениям) о том, что естественнонаучной традиции более соответствует не теоретико-множественное описание вероятности по А.Н. Колмогорову, а статистическое описание по Мизесу – Смирнову – Виллю – Постникову.

3. В прикладной статистике данные подразделяют на количественные и качественные. Количественные признаки измеряются в сильных шкалах. По существу измерение в сильной шкале представляет собой сравнение полученного результата с некоторым эталоном. Качественные признаки отражают трудно формализуемые свойства наблюдений и в числах не выражаются. Их измеряют в слабых шкалах: порядковых и ранговых, номинальных и дихотомических.

4. Статистический анализ качественных признаков (нечисловая статистика) приводит к задаче обработки разнотипных переменных.

Методы решения этой проблемы могут быть связаны с двумя альтернативными подходами. Во-первых, процедуры оцифровки слабых переменных. Но объективно усилить шкалу измерения трудно, а тип «оцифровки» существенно предопределяет итоговые результаты. Во-вторых, подход, основанный на дихотомизации, т.е. на ослаблении всех переменных до булевого уровня с соответствующим увеличением размерности пространства признаков.

5. При составлении любой опросной анкеты маркетолог или социолог реализует дихотомизацию описания исследуемого социума.

Изучение аспектов проблем доводится до того «элементарного»

уровня описания (набора вопросов), который считается достаточным для практических выводов. Принцип дихотомизации переменных является основным методом формализации описания социума в маркетинговых и социально–экономических исследованиях, основанных на выборочном методе.

6. При статистической обработке данных, не относящихся к физическим измерениям, возникает целый ряд принципиальных трудностей. В этой связи в середине ХХ в. возник острый интерес к «свободным от распределения» методам статистики. Из свободных от распределения методов наиболее развит аппарат непараметрической статистики. Непараметрические процедуры не требуют априорных знаний об изучаемом эмпирическом распределении, а накладывают на него лишь определенные (весьма общего характера) ограничения.

7. В начале 60–х гг. стал активно разрабатываться аппарат робастной статистики. Термин робастность (по-русски, наибо-лее близко, «прочность») обозначает свойство процедуры быть, вопервых, достаточно эффективной в идеальных условиях и, вовторых, стабильной при отклонениях от этих идеальных условий.

Существуют три класса робастных методов оценивания: минимаксные или оптимизационные (М-оценки), линейные комбинации порядковых статистик (L-оценки) и процедуры, основанные на ранговых критериях (R-оценки).

8. Одно из самых перспективных направлений современной прикладной статистики связано с концепцией анализа данных Дж.У. Тьюки По существу эта концепция является синтезом детерминированных, стохастических и эвристических подходов к анализу выборочных данных. В рамках концепции Дж.У. Тьюки выделяют три этапа анализа данных: 1) пробный («разведочный»);

2) стохастический и 3) итоговый.

9. С 80-х годов ХХ века в прикладных статистических исследованиях широко применяются методы с интенсивным применением ЭВМ. На практике широко используются два из них: джекнайф и бутстрэп. Метод джекнайф, разработанный Дж. У. Тьюки, имеет ясный логический смысл и может с успехом применяться в прикладных эмпирических исследованиях, в том числе – экономического характера. Процедура бутстрэп, предложенная Брэдли Эфроном, имеет неясную логику построения и вызывает ряд методических возражений. В связи с чем, можно рекомендовать воздерживаться от ее использования.

10. В прикладных исследованиях таблицы данных часто оказываются неполными и обладают заметной недостоверностью (ошибки ввода данных в ЭВМ, дезинформация и др.). В этой связи проблема выявления недостающей и недостоверной информации в эмпирических матрицах данных является неотъемлемой частью первичной статистической обработки данных практически во всех прикладных работах, в том числе - социально-экономического и эконометрического характера.

11. Одной из основных прикладных задач анализа данных является прогнозирование экономической динамики. В целом эта задача хорошо проработана теоретически и практически. Наряду с эвристическими методами прогноза, среди методов количественного прогнозирования наиболее широко используются статистические методы. Статистическое прогнозирование, по своей сути, сводится к экстраполированию многомерных временных последовательностей стохастически взаимосвязанных показателей. Используют и спектральный анализ временных рядов, но этот подход требует наличия весьма большой ретроспективы наблюдений.

Однако на практике исследователи зачастую сталкиваются с ситуацией, когда в их распоряжении имеется лишь очень короткая ретроспектива данных (10 и менее наблюдений). В этих условиях попытки найти вид «наилучшего» тренда бессмысленны, и высокую актуальность приобретает разработка непараметрических методов статистического прогнозирования на базе очень короткой ретроспективы.

12. По сути, классификация – это процедура упрощения массива данных, направленная на то, чтобы облегчить экспертный анализ и содержательную интерпретацию информации. Различают два разных подхода к систематизации: исключающие и неисключающие классификации. При исключающей классификации каждый объект может быть отнесен только к одному из классов, а при неисключающей - к нескольким классам.

13. Развитием идеи неисключающей классификации стали нечеткие множества Л.А. Заде. Мера нечеткой принадлежности данного элемента к заданному классу, принимающая значения от 0 до 1, названа лингвистической переменной. «Внешне» функция нечеткой принадлежности весьма похожа на вероятность, хотя аксиоматически эти две меры вводятся из абсолютно разных соображений. Следует различать нечеткие множества (с мерой, определяющей степень принадлежности наблюдений к таксону) и случайные множества. Случайное множество – это совокупность элементов, для которых некоторым образом оценены вероятности принадлежности к заданному множеству. Следовательно, нечеткость служит объективной характеристикой элементов нечеткого множества, а вероятности в случайном множестве характеризуют степень нашей субъективной осведомлённости о принадлежности элементов к множеству.

14. По мнению М. Гупты, неопределенность, присутствующая в любом событии с неясным исходом, может быть двух типов, связанных: (1) со стохастическим поведением изучаемой системы (по сути, со случайностью) и (2) с принципиально плохой формализуемостью понятийных категорий, а также с ограниченными возможностями человеческих восприятий и рассуждений (по существу, с нечеткостью).

В каждой неопределенности, наблюдаемой в этом мире, в том числе и в экономических областях, всегда присутствует или случайность, или нечеткость, или их одновременное проявление.

15. Существует мнение, что разработки в области теории нечеткой меры, сделанные в связи с созданием теории возможностей Д.

Дюбуа и А. Прадом, позволят создать единую теорию неопределенности.

Правда, следует подчеркнуть, что в рамках этой теории, случайность сводится к нечеткости. Это является альтернативой точке зрения А.И. Орлова, взгляды которого, подкрепленные математически, сводятся к рассмотрению нечетких множеств как некоторых проекций множеств случайных.

Но, исходя из содержательного смысла нечеткости и случайности, можно твердо утверждать, что на сегодняшнем уровне развития математики бессмысленно пытаться заменить нечеткость случайностью и наоборот.

ГЛАВА 2. МНОГОМЕРНЫЕ ОБОБЩЕНИЯ ГИПЕРГЕОМЕТРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ И ИХ АСИМПТОТИКА КАК ОСНОВА ИЗУЧЕНИЯ НЕОДНОРОДНЫХ

(СТРУКТУРИРОВАННЫХ) МНОЖЕСТВ

2.1. Многомерные обобщения гипергеометрического Вторая глава этой книги содержит описание многомерных обобщений гипергеометрического распределения вероятностей (ГГР) и их асимптотики. Этот материал служит теоретической основой для методов выборочных обследований неоднородных (структурированных по целому ряду априорных номинальных шкал) множеств (населения, покупателей, избирателей и т.п.).

Вначале рассмотрено одномерное ГГР которое служит фундаментом всей методологии выборочных исследований. Затем рассмотрен ряд многомерных обобщений ГГР, которые описывают случайный отбор элементов неоднородного множества.

Материал главы отражен в монографиях [236, 239, 249, 264] и публикациях [7, 127, 204, 223, 231, 237, 240, 247, 257, 260-262, 271].

2.1.1. Гипергеометрическое распределение (ГГР) и его роль в исследовании социально–экономических областей знания Пусть задана конечная совокупность, представляющая собой население (избирателей, покупателей и т.д.), состоящая из N человек ( N 1 ). Среди населения существует M человек, обладающих интересующим нас дихотомическим признаком (состоят в данной партии, относятся к сексуальным меньшинствам, имеют автомашину «Жигули», являются клиентами государственного пенсионного фонда, пользуются изучаемой страховой услугой и т.п.).

Производится случайная выборка респондентов объема n. Вероятность того, что в выборку попадут ровно m лиц, обладающих изучаемым дихотомическим признаком (0 m n) задается формулой:

а hy(…) - стандартное обозначение ГГР [123].

Математическое ожидание ГГР равно [170, с.103] а его дисперсия определяется как [170, п.6.1.6] Отметим, что ГГР, зародившись в задачах анализа качества массовой продукции [123,126], сегодня находит широчайшее поле приложений.

Используя понятие гамма-функции, для любых неотрицательных действительных чисел определяемой интегралом Эйлера II рода [284, гл. V] можно получить удобное (для программной реализации) выражение для вычисления значений ГГР.

Для нас важно, что для любых натуральных чисел k выполняется: Г (k 1) k !, причем 1 ! = 1 = 0 !.

Это позволяет представить ГГР в виде:

Используя свойство Г-функции вида (см. [284, п. V.3]) из (1.4) несложно получить hy(m| N, M ;n) Это выражение «выгодно» отличается (в смысле его использования для машинных расчетов) от традиционных представлений ГГР, которые основаны на приближенных (и, как правило, медленно сходящихся) вычислениях бесконечных сумм или произведений [37,147,205].

Величину моды (наиболее вероятного значения изучаемой стохастической переменной) m мы получим, используя аппарат конечных разностей [46]. По аналогии с поиском максимума в случае непрерывных отображений, необходимое и достаточное условие достижения максимума hy(m|M, N ;n) (для дискретного случая исчисления вероятностей) имеет вид Зафиксируем некоторое m. Тогда первая конечная разность [46] в точке m запишется в виде Откуда, с учетом hy(m) 0, следует значение моды ГГР в виде Отметим, что в прикладных социально-экономических задачах, (например, в страховом деле, при формально-математическом обосновании лотерейных проектов) 1 n N, но и N 1 могут быть вполне сопоставимы по величине. Откуда следует правая часть формулы. Вторая конечная разность [46] в точке m записываhy(m | n) ется в виде Отсюда несложно посчитать, что в точке моды:

Соотношение (2.1.1.9) свидетельствует, что в точке мы действительно имеем дело с максимумом вероятностей.

Знание моды ГГР может быть полезно при проведении актуарных и банковских расчетов, в лотерейном бизнесе.

2.1.2. «Распределение разбиения» (РР) и многомерное гипергеометрическое распределение (МГГР) Пусть изучается генеральная совокупность населения, мощность которой равна N. Для маркетингового или социологического опроса составлен инструментарий из некоторого числа «содержательных вопросов», общее число вариантов ответов на которые равно р. При опросе используются априорные классификации по s номинальным шкалам, данные по которым имеются в Госкомстате (обычно, это данные последней переписи населения).

Для простоты в дальнейшем будем обозначать:

индексом « k » - номер варианта ответа на содержательный вопрос анкеты, иначе говоря, « k » определяет номер соответствующего дихотомического признака, характеризующего наблюдения изучаемой совокупности;

индексом « i » - номер априорной классификации (номинальной шкалы), данные по которой есть в Госкомстате;

индексом « j » - номер социально–демографической категории населения (покупателей, электората), определенной i-й априорной классификацией.

Таким образом, везде далее: k 1, p ; i 1, s, j 1,ri.

Например, « k = 45» - намерение купить «форд-фокус», « i = 4»

- классификация по возрасту, а « j = 3» - лица в возрасте 45-60 лет.

Общее число жителей, относящихся к j-й категории i-й классификации, обозначим N ij. Для всех априорных классификаций населения справедливо соотношение вида Мощность подмножества лиц, обладающих k-м «содержательным» признаком, одновременно относясь к j-й категории i-й классификации, обозначим N ij. Общее число жителей, обладающих kk м признаком, равно для любой априорной классификации (при любом « i »).

Пусть в ходе случайного опроса было проинтервьюировано n (n N) респондентов. Пусть в выборку попало nij лиц, относящихся к j-й категории i-й классификации, причем k-м изучаемым признаком обладают nij из них. Общее число респондентов, имеющих k-й Введем априорные частоты вида ij, определяющие доли численности j-й категории i-й классификации среди всего изучаемого населения:

Введем векторные обозначения вида:

Подчеркнем, что все компоненты этих векторов известны: nij непосредственно по структуре полученной случайной выборки, а ij - данные Госкомстата (обычно это данные переписи населения региона).

Вероятность Pr{ni | n } того события, что случайная выборка объема n по i-й классификации имеет структуру ni, определяется в виде:

Распределение (2.5) по его смыслу можно назвать распре-делением разбиения. Его первые моменты определяются в виде Коэффициент корреляции для РР равен Пример. Пусть «i» - классификация населения по национальностям, тогда: i1 - доля русских среди населения, i 2 - украинцев, …, iri - армян. Вероятность того, что в случайную выборку объема n попадут ni1 русских, ni 2 - украинцев, …, nir - армян, дается расi пределением (2.5).

Введем в рассмотрение частоты встречаемости k-го «содержательного» признака среди представителей j-й категории i-й классификации ij : ij N k N ij. Частота встречаемости k-го признака по населению в целом определяется в виде k N k / N.

C помощью категорий априорных классификаций населения эта частота выражается в виде Определим распределение, которое будем называть многомерным гипергеометрическим распределением (МГГР), в виде Очевидно, что распределение разбиения (2.5) является частным случаем МГГР в том случае, когда ij ij 1, т.е. в том случае, если k –й «содержательный» признак определяет на множестве населения некоторую классификацию, задаваемую соответствующей шкалой наименований (номинальной шкалой).

Легко подсчитывается, что первые моменты МГГР определяются в виде:

Коэффициент корреляции между величинами, подчиненными МГГР, равен На этом можно закончить обсуждение многомерных обобщений ГГР, перейдя к анализу распределений, непосредственно описывающих формирование случайной выборки из структурированного множества.

2.1.3. Неоднородность социальных наблюдений.

вероятностная модель социальной системы Пусть в урне имеется всего N шаров (N 1), причем N1 первого цвета, N 2 - второго, и т.д., N r – r- го цвета. Шары всех цветов в урне сделаны либо из металла, либо из дерева, причем M 1 - число металлических шаров первого цвета, M 2 - металлических шаров второго цвета, и т.д., M r – число металлических шаров r- го цвета.

Переформулируем сказанное в терминах множеств. Пусть дано конечное разбиение множества N, обладающего мощностью N.

Задана система подмножеств N1, N 2, …, N r, мощности которых равны соответственно N1, …, N r, причем:

Пусть M - множество металлических шаров, а M 1 - множество металлических шаров первого цвета, M 2 - металлических шаров второго цвета, и т.д., M r – металлических шаров r-го цвета:

Производится случайная выборка (без возвращения) объема n шаров (n N). Какова вероятность того события, что среди выбранных шаров будет ровно nk шаров k-го цвета, причем ровно mk из них будут металлическими?

По формуле условных вероятностей можно записать:

Откуда следует, что Pr{nk,mk |n} Введем векторы вида:

n (n1, n2,...,nr ) ; N ( N1, N 2,...,N r ) Какова вероятность того события, что среди выбранных шаров будет ровно mk металлических шаров k-го цвета, причем всего число шаров каждого цвета соответственно n1, …, nr ?

По формуле условных вероятностей можно записать:

Откуда:

Это распределение, определяющее вероятности общего числа наблюдений, обладающих изучаемым признаком, при определенной структуре случайной выборки назовем структурированным ГГР (СГГР).

При этом предполагаем, что из данных Росстата известна численность значений социально-демографических категорий населения данного региона для данной шкалы наименований (номинальной шкалы соответствующей классификации).

В качестве номинальных шкал могут выступать социальнодемографические категории населения: «пол», «образование», «возрастная группа», «национальность», «заработная плата», «район проживания», «членство в партиях» и т.п. Важно, что для изучаемого региона мы всегда априори знаем значения численности соответствующих категорий населения (классификационных групп Пусть в регионе М из N жителей обладают некоторым дихотомическим признаком, в качестве которого может выступать любая булева переменная.

Допустим, что известно число лиц, обладающих заданным дихотомическим признаком по каждой социальной группе из выделенной номинальной шкалы, т.е. нам известны значения M 1, M 2, …, M r (или априорные частоты 1, 2,..., r ).



Pages:   || 2 | 3 | 4 |
Похожие работы:

«Межрегиональные исследования в общественных науках Министерство образования и науки Российской Федерации ИНО-центр (Информация. Наука. Образование) Институт имени Кеннана Центра Вудро Вильсона (США) Корпорация Карнеги в Нью-Йорке (США) Фонд Джона Д. и Кэтрин Т. Мак-Артуров (США) Данное издание осуществлено в рамках программы Межрегиональные исследования в общественных науках, реализуемой совместно Министерством образования и науки РФ, ИНО-центром (Информация. Наука. Образование) и Институтом...»

«Министерство образования и науки Российской Федерации Московский государственный университет экономики, статистики и информатики (МЭСИ) Кафедра Лингвистики и межкультурной коммуникации Е.А. Будник, И.М. Логинова Аспекты исследования звуковой интерференции (на материале русско-португальского двуязычия) Монография Москва, 2012 1 УДК 811.134.3 ББК 81.2 Порт-1 Рецензенты: доктор филологических наук, профессор, заведующий кафедрой русского языка № 2 факультета русского языка и общеобразовательных...»

«УДК 80 ББК 83 Г12 Научный редактор: ДОМАНСКИЙ Ю.В., доктор филологических наук, профессор кафедры теории литературы Тверского государственного университета. БЫКОВ Л.П., доктор филологических наук, профессор, Рецензенты: заведующий кафедрой русской литературы ХХ-ХХI веков Уральского Государственного университета. КУЛАГИН А.В., доктор филологических наук, профессор кафедры литературы Московского государственного областного социально-гуманитарного института. ШОСТАК Г.В., кандидат педагогических...»

«АКАДЕМИЯ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН Г.Н. Петров, Х.М. Ахмедов Комплексное использование водно-энергетических ресурсов трансграничных рек Центральной Азии. Современное состояние, проблемы и пути решения Душанбе – 2011 г. ББК – 40.62+ 31.5 УДК: 621.209:631.6:626.8 П – 30. Г.Н.Петров, Х.М.Ахмедов. Комплексное использование водно-энергетических ресурсов трансграничных рек Центральной Азии. Современное состояние, проблемы и пути решения. – Душанбе: Дониш, 2011. – 234 с. В книге рассматриваются...»

«РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ФИЗИКИ АТМОСФЕРЫ им. А. М. ОБУХОВА УНИВЕРСИТЕТ НАУК И ТЕХНОЛОГИЙ (ЛИЛЛЬ, ФРАНЦИЯ) RUSSIAN ACADEMY OF SCIENCES A. M. OBUKHOV INSTITUTE OF ATMOSPHERIC PHYSICS UNIVERSITE DES SCIENCES ET TECHNOLOGIES DE LILLE (FRANCE) V. P. Goncharov, V. I. Pavlov HAMILTONIAN VORTEX AND WAVE DYNAMICS Moscow GEOS 2008 В. П. Гончаров, В. И. Павлов ГАМИЛЬТОНОВАЯ ВИХРЕВАЯ И ВОЛНОВАЯ ДИНАМИКА Москва ГЕОС УДК 532.50 : 551.46 + 551. ББК 26. Г Гончаров В. П., Павлов В....»

«Министерство здравоохранения Российской Федерации Тихоокеанский государственный медицинский университет В.А. Дубинкин А.А. Тушков Факторы агрессии и медицина катастроф Монография Владивосток Издательский дом Дальневосточного федерального университета 2013 1 УДК 327:614.8 ББК 66.4(0):68.69 Д79 Рецензенты: Куксов Г.М., начальник медико-санитарной части УФСБ России по Приморскому краю, полковник, кандидат медицинских наук; Партин А.П., главный врач Центра медицины катастроф Приморского края;...»

«Министерство образования и науки Российской Федерации Федеральное агентство по образованию Владивостокский государственный университет экономики и сервиса _ Российская академия наук Дальневосточное отделение Институт истории, археологии и этнографии народов Дальнего Востока Ю.Н. ОСИПОВ КРЕСТЬЯНЕ -СТ АРОЖИЛЫ Д АЛЬНЕГО ВОСТОК А РОССИИ 1855–1917 гг. Монография Владивосток Издательство ВГУЭС 2006 ББК 63.3 (2Рос) О 74 Рецензенты: В.В. Сонин, д-р ист. наук, профессор Ю.В. Аргудяева, д-р ист. наук...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ КАФЕДРА ЦЕНООБРАЗОВАНИЯ И ОЦЕНОЧНОЙ ДЕЯТЕЛЬНОСТИ Т.Г. КАСЬЯНЕНКО СОВРЕМЕННЫЕ ПРОБЛЕМЫ ТЕОРИИ ОЦЕНКИ БИЗНЕСА ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА ЭКОНОМИКИ И ФИНАНСОВ ББК 65. К Касьяненко Т.Г. К 28 Современные проблемы теории оценки бизнеса / Т.Г....»

«УА0600900 А. А. Ключников, Э. М. Ю. М. Шигера, В. Ю. Шигера РАДИОАКТИВНЫЕ ОТХОДЫ АЭС И МЕТОДЫ ОБРАЩЕНИЯ С НИМИ Чернобыль 2005 А. А. Ключников, Э. М. Пазухин, Ю. М. Шигера, В. Ю. Шигера РАДИОАКТИВНЫЕ ОТХОДЫ АЭС И МЕТОДЫ ОБРАЩЕНИЯ С НИМИ Монография Под редакцией Ю. М. Шигеры Чернобыль ИПБ АЭС НАН Украины 2005 УДК 621.039.7 ББК31.4 Р15 Радиоактивные отходы АЭС и методы обращения с ними / Ключников А.А., Пазухин Э. М., Шигера Ю. М., Шигера В. Ю. - К.: Институт проблем безопасности АЭС НАН Украины,...»

«Институт биологии моря ДВО РАН В.В. Исаева, Ю.А. Каретин, А.В. Чернышев, Д.Ю. Шкуратов ФРАКТАЛЫ И ХАОС В БИОЛОГИЧЕСКОМ МОРФОГЕНЕЗЕ Владивосток 2004 2 ББК Монография состоит из двух частей, первая представляет собой адаптированное для биологов и иллюстрированное изложение основных идей нелинейной науки (нередко называемой синергетикой), включающее фрактальную геометрию, теории детерминированного (динамического) хаоса, бифуркаций и катастроф, а также теорию самоорганизации. Во второй части эти...»

«Vinogradov_book.qxd 12.03.2008 22:02 Page 1 Одна из лучших книг по модернизации Китая в мировой синологии. Особенно привлекательно то обстоятельство, что автор рассматривает про цесс развития КНР в широком историческом и цивилизационном контексте В.Я. Портяков, доктор экономических наук, профессор, заместитель директора Института Дальнего Востока РАН Монография – первый опыт ответа на научный и интеллектуальный (а не политический) вызов краха коммунизма, чем принято считать пре кращение СССР...»

«В.Н. Ш кунов Где волны Инзы плещут. Очерки истории Инзенского района Ульяновской области Ульяновск, 2012 УДК 908 (470) ББК 63.3 (2Рос=Ульян.) Ш 67 Рецензенты: доктор исторических наук, профессор И.А. Чуканов (Ульяновск) доктор исторических наук, профессор А.И. Репинецкий (Самара) Шкунов, В.Н. Ш 67 Где волны Инзы плещут.: Очерки истории Инзенского района Ульяновской области: моногр. / В.Н. Шкунов. - ОАО Первая Образцовая типография, филиал УЛЬЯНОВСКИЙ ДОМ ПЕЧАТИ, 2012. с. ISBN 978-5-98585-07-03...»

«Е.А. Урецкий Ресурсосберегающие технологии в водном хозяйстве промышленных предприятий 1 г. Брест ББК 38.761.2 В 62 УДК.628.3(075.5). Р е ц е н з е н т ы:. Директор ЦИИКИВР д.т.н. М.Ю. Калинин., Директор РУП Брестский центр научно-технической информации и инноваций Государственного комитета по науке и технологиям РБ Мартынюк В.Н Под редакцией Зам. директора по научной работе Полесского аграрно-экологического института НАН Беларуси д.г.н. Волчека А.А Ресурсосберегающие технологии в водном...»

«Федеральное агентство по образованию Сибирский федеральный университет Институт естественных и гуманитарных наук Печатные работы профессора, доктора биологических наук Смирнова Марка Николаевича Аннотированный список Составитель и научный редактор канд. биол. наук, доцент А.Н. Зырянов Красноярск СФУ 2007 3 УДК 012:639.11:574 (1-925.11/16) От научного редактора ББК 28.0 П 31 Предлагаемый читателям аннотированный список печатных работ профессора, доктора биологических наук М.Н. Смирнова включает...»

«А.Н. КОЛЕСНИЧЕНКО Международные транспортные отношения Никакие крепости не заменят путей сообщения. Петр Столыпин из речи на III Думе О стратегическом значении транспорта Общество сохранения литературного наследия Москва 2013 УДК 338.47+351.815 ББК 65.37-81+67.932.112 К60 Колесниченко, Анатолий Николаевич. Международные транспортные отношения / А.Н. Колесниченко. – М.: О-во сохранения лит. наследия, 2013. – 216 с.: ил. ISBN 978-5-902484-64-6. Агентство CIP РГБ Развитие производительных...»

«КАЗАХСТАНСКИЙ ИНСТИТУТ СТРАТЕГИЧЕСКИХ ИССЛЕДОВАНИЙ ПРИ ПРЕЗИДЕНТЕ РЕСПУБЛИКИ КАЗАХСТАН МУРАТ ЛАУМУЛИН ЦЕНТРАЛЬНАЯ АЗИЯ В ЗАРУБЕЖНОЙ ПОЛИТОЛОГИИ И МИРОВОЙ ГЕОПОЛИТИКЕ Том V Центральная Азия в XXI столетии Алматы – 2009 УДК 327 ББК 66.4 (0) Л 28 Рекомендовано к печати Ученым Советом Казахстанского института стратегических исследований при Президенте Республики Казахстан Научное издание Рецензенты: Доктор исторических наук, профессор Байзакова К.И. Доктор политических наук, профессор Сыроежкин...»

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ АДЫГЕЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЦЕНТР БИЛИНГВИЗМА АГУ X. 3. БАГИРОКОВ Рекомендовано Советом по филологии Учебно-методического объединения по классическому университетскому образованию в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности 021700 - Филология, специализациям Русский язык и литература и Языки и литературы народов России МАЙКОП 2004 Рецензенты: доктор филологических наук, профессор Адыгейского...»

«Российская академия естественных наук Ноосферная общественная академия наук Европейская академия естественных наук Петровская академия наук и искусств Академия гуманитарных наук _ Северо-Западный институт управления Российской академии народного хозяйства и государственного управления при Президенте РФ _ Смольный институт Российской академии образования В.И.Вернадский и ноосферная парадигма развития общества, науки, культуры, образования и экономики в XXI веке Под научной редакцией: Субетто...»

«РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЙ Л. З. Сова АФРИКАНИСТИКА И ЭВОЛЮЦИОННАЯ ЛИНГВИСТИКА САНКТ-ПЕТЕРБУРГ 2008 Л. З. Сова. 1994 г. L. Z. Sova AFRICANISTICS AND EVOLUTIONAL LINGUISTICS ST.-PETERSBURG 2008 УДК ББК Л. З. Сова. Африканистика и эволюционная лингвистика // Отв. редактор В. А. Лившиц. СПб.: Издательство Политехнического университета, 2008. 397 с. ISBN В книге собраны опубликованные в разные годы статьи автора по африканскому языкознанию, которые являются...»

«МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ СОЮЗ ОПТОВЫХ ПРОДОВОЛЬСВТЕННЫХ РЫНКОВ РОССИИ Методические рекомендации по организации взаимодействия участников рынка сельскохозяйственной продукции с субъектами розничной и оптовой торговли Москва – 2009 УДК 631.115.8; 631.155.2:658.7; 339.166.82. Рецензенты: заместитель директора ВНИИЭСХ, д.э.н., профессор, член-корр РАСХН А.И. Алтухов зав. кафедрой товароведения и товарной экспертизы РЭА им. Г.В. Плеханова,...»






 
© 2013 www.diss.seluk.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Методички, учебные программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.