Банки

Оценка генеральной доли. Дисперсия выборки

Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использованию статистических данных для научных и практических выводов. При этом статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

Статистическая совокупность, из которой отбирают часть объектов, называется генеральной совокупностью . Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой . Число объектов N из генеральной совокупности и из выборки n называются соответственно объемом генеральной совокупности N и объемом выборки n .

Статистическое описание и вероятностные модели применяются к физическим, экономическим, социологическим, биологическим процессам, обладающим тем свойством, что хотя результат отдельного измерения физической величины X не может быть предсказан с достаточной точностью, но значение некоторой функции от множества результатов повторных измерений может быть предсказан с существенно лучшей точностью. Такая функция называется статистикой. Часто точность предсказания некоторой статистики возрастает с возрастанием объема выборки.

Наиболее известные статистики – относительная частота, выборочные средние, дисперсия. Когда возрастает объем выборки n , многие выборочные статистики сходятся по вероятности к соответствующим параметрам теоретического распределения величины X . Поэтому каждую выборку рассматривают как выборку из теоретически бесконечной генеральной совокупности, распределение признака в которой совпадает с теоретическим распределением вероятности случайной величины. Во многих случаях теоретическая генеральная совокупность есть идеализация действительной совокупности, из которой получена выборка.

Различные значения наблюдаемого признака, встречающегося в совокупности, называются вариантами. Частоты вариантов выражают доли (удельные веса) элементов совокупности с одинаковыми значениями признака. Вариационным рядом называется ранжированный в порядке возрастания или убывания ряд вариантов с соответствующим им частотами.

Средние значения выборки

Значения, находящиеся в середине вариационного ряда, принято делить на собственно средние и структурные средние. Собственно среднее - это арифметическое среднее. Структурные средние - мода и медиана. Кроме того, чтобы охарактеризовать структуру вариационного ряда, используют квартили, квинтили, децили и процентили. Теперь обо всём по порядку.

Среднее арифметическое значение генеральной совокупности находят по формуле:

Число единиц генеральной совокупности,
- значение j -го наблюдения.

Если величина выборки X может принимать значения с вероятностями соответственно , то средним значением величины X для выборки (её математическим ожиданием E(x) ,будет

или
или же (2)
для негруппированных выборок и

для группированных выборок, где

Число единиц выборки,
- число классов,
- значение i -го класса,
- частота i -го класса.

Пример 1. В таблице даны значения средней температуры воздуха в населённом пункте N в 2014 году:

Месяц
1 -2,3
2 -4,0
3 2,0
4 9,0
5 10,0
6 19,4
7 19,9
8 17,1
9 14,9
10 7,3
11 2,2
12 -0,3

Найти среднюю температуру воздуха.

Решение. Найдём среднюю температуру воздуха как среднее значение для негруппированной выборки:

Пример 2. В таблице – данные о группировке сельских хозяйств по урожайности зерновых:

Урожайность зерновых в центнерах с га

Число сельских хозяйств – абсолютное

Удельный вес сельских хозяйств – в процентах

Найти среднюю урожайность зерновых.

Решение. Так как имеем только группированные данные и неизвестна средняя урожайность каждой группы, как приближенные значения к средней каждой группы примем центры интервалов:

Центры интервалов

Найдём требуемую в условии задачи среднюю урожайности зерновых:

Итак, средняя урожайность по выборке составляет 15,6 центнеров с га.

Модой называют значение, которое в вариационном ряду встречается чаще других. Моду можно найти на гистограмме как самый высокий столбец.

Например, в выборке, значения которой 20, 50, 60, 70, 80, 20, 20, 75, 70, 20, 80, 20, 50, 60, модой является 20.

Медианой называют значение, которое находится в середине вариационного ряда. Первая половина элементов выборки меньше этого значения, а вторая половина - больше.

Если в выборке нечётное число элементов, то за медиану принимают собственно серединное значение. Например, в выборке, значения которой 14, 15, 18, 21, 27, медианой является 18.

Если в выборке чётное число элементов, то медиану находят, выбирая два значения, которые находятся в середине и вычисляя их среднее арифметическое. Например, есть выборка 11, 14, 15, 18, 21, 27. Медиану находят так: (15+18)/2 = 16,5.

По аналогии с медианой, которая делит значения выборки на две части, вводят понятие квартилей , которые делят вариационный ряд на 4 равные части.

Децили делят вариационный ряд уже на 10 одинаковых частей, а квинтили - на 5. Процентили делят вариационный ряд на 100 равных частей.

Дисперсия выборки. Стандартное отклонение

Дисперсией величины называется среднее значение квадрата отклонения величины от её среднего значения. Дисперсию генеральной совокупности рассчитывают по формуле:

(4)

Дисперсию выборки рассчитывают по формуле:

(5)

для негруппированных выборок и

(6)

для группированных выборок.

Пример 3. В таблице – данные о возрасте жителей административной территории Т в 2013 году. Не будем приводить эту таблицу из-за её громоздкости. Отметим лишь, что в таблице дана численность каждого из возрастов (по одному году, например, 33 года, 40 лет, 65 лет и т.д.) в группах от 0 лет по 94 года (включительно) и численность всей возрастной группы в интервале 95-99 лет, а также численность жителей старше 100 лет.

Требуется найти средний возраст жителей административной территории и дисперсию среднего возраста.

Решение. Найдём средний возраст. Так как данные в таблице являются данными генеральной совокупности, находим средний возраст генеральной совокупности:

В таблице – данные о числе жителей каждого возраста, исключение же – жители в возрасте 95-99 лет и старше 100 лет. Поэтому рассчитали центр интервала возрастной группы 95-99 лет: 97 лет и в расчётах использовали его.

Так как число жителей старше 100 лет относительно небольшое, чтобы упростить расчёты, нижнюю границу интервала приняли за значение признака.

Итак, средний возраст жителей административной территории Т – 38,2 года

Найдём теперь его дисперсию:

Пример 4. Найти дисперсию урожайности зерновых в сельских хозяйствах, используя данные примера 2.

Решение. Средняя урожайность по выборке составляет 15,6 центнеров с га. Чтобы найти дисперсию, создадим дополнительную таблицу.

Центры интервалов

Число хозяйств

4244

13,1

172,1

730412,3

10446

65,9

688558,6

12,5

18956

184391,3

17,5

20207

71505,7

22,5

8159

47,3

386328,5

27,5

4165

11,9

141,2

585113,6

32,5

1316

16,9

285,0

375024,0

Проверка гипотез о различиях между долями респондентов. Часто исследователю приходится решать следующую проблему. Предположим, все опрошенные подразделяются на две подгруппы. (Это могут быть представители двух независимо построенных выборок, например выборка из жителей Москвы и выборка из жителей Санкт-Петербурга, а могут - лица, различия между которыми выявились в ходе анкетирования представителей одной и той же выборки респондентов, например те, у кого есть, и те, у кого нет высшего образования.) Исследователь должен выяснить, одинаково или по-разному распределились ответы представителей этих двух подгрупп на какой-либо определенный вопрос анкеты.

Пример 12.6

Исследование предпочтений в одежде (данные условны)

Пусть, например, нас интересует, различаются ли доли тех, кто носит джинсы, в Москве и Санкт-Петербурге. Пусть в каждом из этих городов были построены репрезентативные выборки и проведены опросы. Предположим, были получены следующие результаты (табл. 12.21).

Таблица 12.21. Респонденты, которые носят и не носят джинсы, по данным опросов лиц в возрасте до 35 лет в Москве и Санкт-Петербурге, человек

Мы видим, что в Москве носят джинсы 80% опрошенных, а в Санкт-Петербурге - лишь 60%. Но достаточно ли разницы в 20%, чтобы утверждать, что это не случайность, что вообще москвичи чаще склонны носить джинсы, чем петербуржцы?

Для ответа на этот вопрос воспользуемся знакомой нам статистикой z, имеющей стандартизованное нормальное распределение, которая помогла нам установить, что определенная в ходе другого опроса доля респондентов, осведомленных о новом продукте, значимо отличается от намеченного исследователем фиксированного значения.

Статистика для данного случая имеет следующий вид:

где p1 и р2 - доли носящих джинсы от числа опрошенных в Москве и Санкт-Петербурге (0,8 и 0,6 соответственно); - оценка стандартного отклонения разности долей р1 и р2.

Оценка стандартного отклонения разности долей рассчитывается по формуле

(12.17)

где р - доля пользующихся джинсами среди всех опрошенных в двух выборках; n1 и n2 - число опрошенных в Москве и Санкт-Петербурге соответственно.

Величина р рассчитывается по формуле

В нашем примере имеем:

Поскольку нас интересует сам факт различия долей носящих джинсы в этих городах, а не превышения доли носящих джинсы в Москве по сравнению с такой долей в Санкт-Петербурге, нулевая и альтернативная гипотезы имеют вид:

Поэтому при прежней доверительной вероятности 0,95 пороговое значение на кривой нормального распределения равно 1,96.

А поскольку 4,36 > 1,96, нулевая гипотеза отвергается, т.е. данные опросов не противоречат утверждению, что доли носящих джинсы в Москве и Санкт-Петербурге различны.

Проверка гипотез о различиях между средними значениями. Часто требуется определить, являются ли случайными различия между средними значениями некоторой величины, рассчитанными по ответам представителей двух разных подвыборок респондентов. Например, исследователя может интересовать, действительно ли жители Москвы оценивают некоторый товар выше, чем жители Санкт-Петербурга, если средняя оценка этого товара по пятибалльной шкале респондентами-москвичами выше, чем респондентами-петербуржцами.

Для проверки такого рода гипотез используется статистика Стьюдента с числом степеней свободы (n1 + n0 - 1), где п1 и n2 - число объектов (в данном случае - респондентов) в каждой из двух выборок:

где и - средние значения оценок товара по данным опросов в Москве и в Санкт-Петербурге; - оценка стандартного отклонения разности интересующих нас средних значений между этими городами.

Последняя величина рассчитывается по формуле

где s - средневзвешенное среднеквадратическое отклонение оценок от соответствующих средних значений в каждой из выборок.

В свою очередь, величина s рассчитывается по формуле

(12.21)

где x1,i и x2,j - оценки, полученные на i-м объекте из первой выборки и j-м объекте из второй выборки.

Такие проверки проводятся с помощью программного пакета SPSS (меню Analyze - Compare Means - Independent Samples T-test ).

Зависимые выборки

Обсуждавшаяся выше проблема касалась случая, когда сравниваются доли или средние значения определенным образом ответивших на интересующий нас вопрос в двух разных группах респондентов. Нередко, однако, нужно сравнить между собой не реакции разных респондентов (например, живущих в разных городах), а две реакции у одних и тех же респондентов. Так бывает, когда информация собирается дважды на одной и той же выборке из n объектов. Например, дважды опрашиваются одни и те же респонденты и нужно проверить гипотезу, что за время, прошедшее между опросами, их оценки изменились. Скажем, надо узнать, действительно ли повысилась после рекламной кампании доля участников панели, знающих о существовании некоторого товара. Или узнать, действительно ли о существовании товара А знают больше респондентов, чем о товаре В, или наблюдаемое по данным опроса различие - просто случайность.

В случае зависимых выборок для проверки гипотезы об отсутствии различий в средних значениях применяется следующая тестовая статистика с (n - 1) степенями свободы:

где и - средние значения оценок в первом и втором замерах соответственно;- стандартное отклонение определения различий в средних значениях оценок в двух замерах, рассчитываемое по формуле

Здесь - стандартное отклонение различий между оценками в двух замерах, которое, в свою очередь, рассчитывается по формуле

(12.24)

где и - оценки на объектах в первом и втором замерах соответственно.

Отметим, что эти проверки можно провести с помощью программного пакета SPSS (меню Analyze - Compare Means - Pared Samples T-test ).

Обзор других задач анализа данных

Перед нами не было цели обсудить методы решения всего круга проблем, которые приходится время от времени решать при базовом анализе маркетинговых данных. Мы рассмотрели лишь те из них, которые используются чаще других.

В заключение раздела подчеркнем следующее. Как уже отмечалось, основной материал для отчета о маркетинговом исследовании дают таблицы частотных распределений и кросстабуляции. Структура этих таблиц может быть намечена заранее в той мере, в которой она связана с задачами исследования и выбранными подходами к их решению, т.е. исследователь сам назначает интересующие его группы респондентов и располагает их в столбцах таблиц сопряженности.

Однако нередко форма некоторых отчетных таблиц может быть окончательно установлена лишь на стадии углубленного анализа данных. Так, лишь на этой стадии можно провести сегментирование исследуемой совокупности и найти сегменты, наиболее резко отличающиеся друг от друга по реакции их представителей на маркетинговые действия фирмы. Построив затем соответствующие таблицы кросс-табуляции, можно детально изучить особенности каждого из сегментов, что позволит разработать набор эффективных маркетинговых комплексов.

Есть много методов углубленного анализа данных. Основное назначение большинства из них - подсказать исследователю, какой принцип сегментирования окажется наиболее удачным в том смысле, что построенные затем таблицы кросс-табуляции продемонстрируют наиболее яркие контрасты. Интересно, что многие исследователи, стремясь добиться краткости и ясности изложения материалов, а также не спеша раскрывать секреты своего мастерства, оставляют за рамками отчета примененный ими способ отыскания этой наиболее удачной формы таблиц. Мы рассмотрим два метода, дающих такие "подсказки", - методы кластерного и факторного анализов. Эти методы приспособлены для работы с часто встречающимися в маркетинговых исследованиях бинарными и метрическими шкалами.

Есть в арсенале исследователей и методы, позволяющие выяснить, как отнесутся потребители к тому или иному сочетанию свойств товара, насколько они ценят то или иное свойство товара. Это дает менеджерам рынка богатую пищу для размышлений при разработке маркетингового комплекса. Один из таких методов - совместный анализ (conjoint analysis ) - тоже будет рассмотрен нами в дальнейшем.

1.1. Описание данных, источник получения. Рассматриваемый период и пространственные рамки_ 3

1.2. Характеристика используемых статистических показателей, в том числе вид и единица измерения, тип (интервальный или моментальный) 3

1.3. Оценка среднего значения выбранного показателя 4

1.4. Оценка структурных средних_ 5

(моды, медианы) на основе структурной группировки_ 5

1.5. Графическое представление распределения значений_ 7

(гистограмма, куммулята) 7

2. Оценка показателей вариации_ 9

3. Оценка абсолютных и относительных показателей динамики для выбранного показателя 11

4. Анализ взаимосвязи между исследуемыми показателями_ 13

Список используемой литературы_ 15


Описание данных, источник получения. Рассматриваемый период и пространственные рамки

Для исследования было выбрано АО «Лукойл», так как компания является лидером в сфере добычи и переработки нефти и газа, сбыта нефтепродуктов (lukoil.ru

В данной работе предоставлены данные о выручке по кварталам в период с 2006 по 2009 год. Выручка – общая сумма денежных средств, полученных (вырученных) компанией за определённый период её деятельности, за счёт продажи услуг своим клиентам.

Характеристика используемых статистических показателей, в том числе вид и единица измерения, тип (интервальный или моментальный)

В связи с соответствием со стандартами, показатель выручки измеряется в тыс. руб.; тип рядов динамики – интервальный, т.к данные представлены за определенный период.


Оценка среднего значения выбранного показателя

Средняя арифметическая может быть простой или взвешенной. В данном случае расчет осуществляется по не сгруппированным данным (каждая единица имеет одинаковую значимость). Следовательно, применяется средняя арифметическая простая:

После проведения расчета получаем, что тыс. руб., т.е. в среднем в каждом квартале выручка предприятия составляет 29097147 тыс. руб.


Оценка структурных средних

(моды, медианы) на основе структурной группировки

Для расчета структурных средних величин (моды и медианы) нужно провести структурную группировку.

Первым этапом является определение числа групп. Для этого воспользуемся приближенной формулой Стерджесса: n = 1+3,322 lgN.

Рассчитываем: n=1+3,322lg15=4,95. Получаем 5 групп.

Для этого рассчитаем размах вариации (вычисляется как разница между максимальным и минимальным значением показателя):

R = 45313756 - 17551616=27762140

Теперь рассчитываем величину интервала:

h = 27762140/5 = 2776214

Вычисляем моду:

Мода – это значение изучаемого признака, повторяющееся с наибольшей частотой.

Определяем модальный интервал, такой, что его частота больше, чем у предыдущего и больше, чем у следующего. В данном случае это интервал: 23,1-28,7.

Тыс. руб.

Это означает, что в большинстве кварталов компания имела выручку больше тыс. руб.

Оценка средней величины имеет целью установить величину генеральной средней для изученной категории объектов. Требуемая для этой цели ошибка репрезентативности определяется по формуле:

При изучении шерстной продуктивности одной породы овец было взято из разных мест обитания породы у 100 взрослых овец 100 годовых настригов шерсти. Средний настриг у 100 овец оказался μ = 5,0 кг, стандартное отклонение для этой выборки s = 1,0. Ответственность исследования обычная, поэтому был принят первый порог вероятности безошибочных прогнозов b 1 = 0,95.

Оценка среднего настрига для всей породы может быть проведена следующим образом:

n = 100; μ = 5,0; s = 1,0; n = 100 – 1 = 99; t = 2,0;

D = 2,0 × 0,1 =0,2;

μ max =5,0 + 0,2 = 5,2 (возможный максимум);

μ min = 5,0 – 0,2 = 4,8 (гарантированный минимум).

1 Средний настриг шерсти по изученной выборке равен
μ ± = 5,0 ± 0,2, доверительные границы генеральной средней 4,8 – 5,2. По этим показателям можно провести сравнение результатов проведенного исследования с результатами других работ.

2 Планировать выход шерсти (n = 10000) на основе проведенного исследования следует исходя из гарантированного минимума генеральной средней μ min = 4,8 кг на одну голову, или 48 т шерсти от всех взрослых овец породы.

3 Работы по стрижке, обработке, перевозке и хранению шерсти следует планировать исходя из возможного максимума генеральной средней μ mах = 5,2 кг с головы, или 52 т от всех овец изученной категории.

При изучении способности к обучению белых мышей для каждой из 40 особей определенного происхождения регистрировалось время прохождения лабиринта в поисках корма после пятой попытки В одном опыте были получены следующие сводные показатели:
n = 40, μ = 7,0 мин, s = 3,0 мин

Требовалось определить возможное время прохождения лабиринта в среднем для мышей всей изучаемой линии, что можно сделать следующим образом: n = 40, μ = 7,0, s = 3,0, n = 40 – 1 = 39, t = 2 (ответственность обычная: b = 0,95), = 3 / = 0,48; D = 2 × 0,48 = 0,96 ≈ 1,0, т.е не более 7,0 + 1,0 = 8,0; не менее 7,0 – 1,0 = 6,0.

1 Среднее время для опытной группы

μ ± = 7,0 ± 0,48 мин.

2 Доверительные границы генеральной средней

μ ± D = 6,0 – 8,0 мин.

3 Если встретится группа мышей со средним временем или меньше 6 мин. или больше 8 мин., возникнет предположение, что эта группа отличается от изученной по способности проходить лабиринт. Это предположение необходимо будет проверить методом определения достоверности разности.

Оценка средней разности

В некоторых исследованиях в качестве первичных данных берется разность двух измерений. Это может быть в случае, когда каждая особь выборки изучается в двух состояниях – или в разном возрасте, или при разных условиях жизни. В этих случаях индивидуальные и средние разности по своему знаку и величине могут характеризовать действие на изучаемый признак или возраста, или изменения условий жизни.

Характеристика действия определенных факторов по разности может быть произведена также и в экспериментах с аналогами, когда каждой особи в опытной группе соответствует строго определенная особь в контроле

При сортоиспытании пшеницы новый сорт А сравнивался со стандартным сортом В по разности урожаев, полученных на 20 парах параллельных делянок: d i = A i – В i . В результате в качестве первичных материалов было получено 20 разностей, некоторые из них были положительными (A>В), некоторые – отрицательными (А<В).

Для всей выборки, состоящей из 20 разностей, были получены сводные выборочные показатели: n = 20, μ = + 1,0 ц/га, s = 2,5 ц/га. В этой выборке новый сорт оказался лучше стандартного: А – В= + 1,0; A>В.

Возник вопрос: а будет ли и весь новый сорт (а не только выборка из него) в аналогичных условиях лучше стандартного? Можно ли считать, что полученная средняя выборочная положительная разность d =+1,0 правильно отражает соответствующую генеральную разность между новым сортом и всем стандартным сортом? Будет ли эта генеральная разность тоже положительной? Этот вопрос можно решить путем оценки генерального значения средней разности на основе полученных сводных выборочных показателей.

Генеральный параметр изучаемой разности был оценен в форме доверительных границ с надежностью β 2 = 0,99 (исследование имело большое экономическое значение) следующим образом.

Определение. Точечной называют оценку, которая определяется одним числом.

Пусть требуется изучить количественный признак генеральной совокупности. Предположим из теоретических соображений мы установили, какое распределение имеет этот признак. Наша задача – оценить параметры, которыми определяется это распределение.

Например, если известно, что изучаемый признак распределён в генеральной совокупности по нормальному закону, то необходимо оценить математическое ожидание и среднеквадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение.

Обычно имеются лишь данные выборки. Через эти данные и выражаются оцениваемые параметры.

Для того, чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определённым требованиям:

1) статистическая оценка должна быть несмещённой,

2) статистическая оценка должна быть эффективной,

3) статистическая оценка должна быть состоятельной.

Определение. Статистическая оценкапараметраназываетсянесмещённой , если её математическое ожидание равно оцениваемому параметру
. В противном случае оценка называется смещённой.

Определение. эффективной , если она имеет наименьшую дисперсию среди всех возможных при заданном объёме выборки.

Определение. Статистическая оценка называетсясостоятельной , если при выборке большого объёма
статистическая оценка стремится по вероятности к оцениваемому параметру.

Приведём некоторые теоремы об оценках:

Теорема. Выборочная доля
- есть несмещенная, эффективная и состоятельная оценка генеральной доли
.

Теорема. Выборочная средняя - есть несмещенная, эффективная и состоятельная оценка генеральной средней .

Теорема. Выборочная дисперсия
- есть смещённая и состоятельная оценка генеральной дисперсии
.

То есть математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно
.

Поэтому, чтобы «исправить» выборочную дисперсию до несмещённой оценки достаточно умножить
на дробь. Сделав это, получим исправленную дисперсию, которую обозначают через
.

Определение. Исправленной выборочной дисперсией
называется величина

.

- исправленное среднеквадратическое отклонение .

Исправленная дисперсия является несмещенной оценкой генеральной дисперсии, так как .

Если
, то
, то есть
.

Следовательно, выборочная и исправленная дисперсия приблизительно равны
.

    1. Интервальная оценка параметров

Определение. Интервальной называют оценку, которая определяется двумя числами – концами интервала.

Интервальные оценки позволяют установить точность и надёжность оценок. Пусть найденная по результатам выборки статистическая характеристика служит оценкой неизвестного параметра. Ясно, что чем меньше
, тем точнее оценка. Другими словами, если
(
), то чем меньше, тем оценка точнее. Таким образомхарактеризует точность оценки. Однако, мы не можем категорически утверждать, что оценкаудовлетворяет неравенству
. Мы можем лишь говорить о вероятности, с которой это неравенство осуществляется.

Определение. Надёжностью (доверительной вероятностью ) оценки параметрапоназывается вероятность, с которой осуществляется неравенство
.

Обычно надёжность задаётся наперед, причём чаще всего близка к единице.

Например, =.

Пусть вероятность того, что
равна:

или

Данное соотношение понимают так: вероятность того, что интервал
заключает в себе (покрывает) неизвестный параметр, равна.

Интервал
называетсядоверительным .

Величина доверительного интервала существенно зависит от объёма выборки (уменьшается с ростом) и от значения доверительной вероятности(увеличивается с приближениемк единице).

Определение. Наибольшее отклонениевыборочной средней (или выборочной доли) от генеральной средней (или генеральной доли), которое возможно с заданной доверительной вероятностью, называетсяпредельной ошибкой выборки (точность оценки ).

Эту ошибку называют случайной ошибкой репрезентативности .Систематическая ошибка репрезентативности появляется в результате нарушения принципа случайности при отборе элементов в выборку.