Доверительный интервал

Что такое доверительный интервал:

Это оценка диапазона, используемого в статистике, который содержит параметр совокупности. Этот неизвестный параметр популяции находится в выборочной модели, рассчитанной на основе собранных данных .

Пример: среднее значение выборки x̅ может соответствовать или не соответствовать истинному среднему значению для населения µ. Для этого можно рассмотреть диапазон выборочных средств, в которых может содержаться это среднее значение. Чем длиннее этот интервал, тем больше вероятность этого.

Доверительный интервал выражается в процентах, обозначенных уровнем достоверности, причем 90%, 95% и 99% являются наиболее указанными. Например, на изображении ниже мы имеем 90% доверительный интервал между его верхним и нижним пределами (a и -a ).

Пример 90% доверительного интервала между его верхним (а) и нижним (-а) пределами.

Доверительный интервал является одним из наиболее важных понятий в рамках проверки гипотез в статистике, поскольку он используется в качестве меры неопределенности. Термин был введен польским математиком и статистиком Ежи Нейманом в 1937 году.

Какова актуальность доверительного интервала?

Доверительный интервал важен для указания границы неопределенности (или неточности) в сравнении с выполненными расчетами. Этот расчет использует выборку исследования для оценки фактического размера результата в исходной популяции.

Расчет доверительного интервала - это стратегия, которая учитывает выборку ошибок. Размер результата вашего исследования и ваш доверительный интервал характеризуют предполагаемые значения для исходной популяции.

Чем уже доверительный интервал, тем больше вероятность того, что процент исследуемой совокупности представляет реальное число исходной совокупности, что дает большую уверенность в отношении результата исследуемого объекта.

Как интерпретировать доверительный интервал?

Правильная интерпретация доверительного интервала, вероятно, является наиболее сложным аспектом этой статистической концепции. Примером наиболее распространенной интерпретации концепции является следующее:

Существует 95% вероятность того, что в будущем истинное значение параметра совокупности (например, среднее значение) попадет в диапазон X (нижний предел) и Y (верхний предел).

Таким образом, доверительный интервал интерпретируется следующим образом: он на 95% уверен, что интервал между X (нижняя граница) и Y (верхняя граница) содержит истинное значение параметра совокупности.

Было бы совершенно неверно утверждать, что: существует 95% вероятность того, что интервал между X (нижняя граница) и Y (верхняя граница) содержит реальное значение параметра совокупности.

Вышеприведенное утверждение является наиболее распространенным заблуждением о доверительном интервале. После расчета статистического диапазона он может содержать только параметр совокупности или нет.

Тем не менее, интервалы могут варьироваться между выборками, в то время как истинный параметр популяции одинаков независимо от выборки.

Следовательно, доверительный интервал доверительного интервала может быть сделан только в случае, когда доверительные интервалы пересчитываются для количества выборок.

Этапы расчета доверительного интервала

Диапазон рассчитывается с использованием следующих шагов:

Соберите пример данных: n ;
Рассчитать среднее значение выборки x̅;
Определить, является ли стандартное отклонение популяции ( σ ) известным или неизвестным;
Если стандартное отклонение популяции известно, z- точка может использоваться для соответствующего уровня достоверности;
Если стандартное отклонение популяции неизвестно, мы можем использовать статистику t для соответствующего уровня достоверности;
Таким образом, нижний и верхний пределы доверительного интервала находятся по следующим формулам:

а) Стандартное отклонение известной популяции :

Формула для расчета стандартного отклонения известной совокупности.

б) стандартное отклонение неизвестной популяции :

Формула для расчета стандартного отклонения неизвестной популяции.

Практический пример доверительного интервала

Клиническое исследование оценило связь между наличием астмы и риском развития обструктивного апноэ сна у взрослых.

Некоторые взрослые были случайным образом набраны из списка государственных служащих, за которыми следили в течение четырех лет.

Участники с астмой, по сравнению с теми, у кого нет, имели более высокий риск развития апноэ через четыре года.

При проведении клинических исследований, подобных этому примеру, подмножество интересующей группы населения обычно привлекается для повышения эффективности исследования (меньше затрат и меньше времени).

Эта подгруппа лиц, изучаемая популяция, состоит из тех, кто соответствует критериям включения и согласен участвовать в исследовании, как показано на рисунке ниже.

Пояснительная графика населения, изученного на примере.

Затем исследование завершается и рассчитывается величина эффекта (например, средняя разница или относительный риск ), чтобы ответить на вопрос исследования.

Этот процесс, называемый выводом, включает использование данных, собранных у исследуемой совокупности, для оценки величины фактического воздействия на представляющую интерес совокупность, то есть совокупность происхождения.

В приведенном примере исследователи набрали случайную выборку государственных служащих (исходная популяция), которые имели право и согласились участвовать в исследовании (исследуемая популяция), и сообщили, что астма увеличивает риск развития апноэ в исследуемой популяции.

Чтобы учесть ошибку выборки из-за набора только подгруппы представляющего интерес населения, они также рассчитали 95% доверительный интервал (около оценки) от 1, 06 до 1, 82, что указывает на вероятность 95 %, что истинный относительный риск в исходной популяции будет между 1, 06 и 1, 82 .

Доверительный интервал для среднего

Когда у человека есть информация о стандартном отклонении населения, он может рассчитать доверительный интервал для среднего или среднего значения этого населения.

Когда измеряемая статистическая характеристика (например, доход, IQ, цена, рост, количество или вес) является числовой, в большинстве случаев оценивается, что найдено среднее значение для населения.

Таким образом, мы пытаемся найти среднее значение популяции ( μ ), используя среднее значение выборки ( x̅ ), с пределом погрешности. Результат этого расчета называется доверительным интервалом для среднего населения .

Когда стандартное отклонение популяции известно, формула для доверительного интервала (CI) для среднего значения популяции:

где:

х̅ - среднее значение по выборке;
σ - стандартное отклонение населения;
n - размер выборки;
Ζ * представляет подходящее значение стандартного нормального распределения для желаемого уровня достоверности.

Ниже приведены значения для различных уровней достоверности ( Ζ * ):

Уровень доверия	Значение Z * -
80%	1:28
90%	1.645 (обычный)
95%	1, 96
98%	2:33
99%	2:58

В таблице выше приведены значения z * для предоставленных уровней достоверности. Обратите внимание, что эти значения получены из стандартного нормального распределения (Z-).

Область между каждым значением z * и отрицательным значением этого значения является (приблизительным) процентом достоверности. Например, область между z * = 1, 28 и z = -1, 28 составляет приблизительно 0, 80. Следовательно, эта таблица также может быть расширена до других доверительных процентов. В таблице указаны только наиболее часто используемые проценты доверия.

Смотрите также значение гипотезы.