Карл Пирсон. Биография и научная деятельность

Описание:
Научная деятельность Карла Пирсона в области математической статистики.
Критерий согласия Пирсона (критерий хи-квадрат)
Распределение Пирсона (распределение хи-квадрат)
Доступные действия
Введите защитный код для скачивания файла и нажмите "Скачать файл"
Защитный код
Введите защитный код

Нажмите на изображение для генерации защитного кода

Текст:

Федеральное казенное государственное военно-образовательное

учреждение высшего профессионального образования

САНКТ-ПЕТЕРБУРГСКИЙ ВОЕННЫЙ ИНСТИТУТ МВД РОССИИ

Кафедра информатики и математики

Реферативная работа

Тема:«Карл Пирсон. Биография и научная деятельность».

 Работу выполнил:

Санкт-Петербург

2015

Содержание

Введение. 3

1.   Биография. 4

2.   Научная деятельность Карла Пирсона в области математической статистики. 7

2.1    Критерий согласия Пирсона (критерий хи-квадрат). 8

2.2 Распределение Пирсона (распределение хи-квадрат). 13

Заключение. 20

Литература. 21


Введение.

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основал журнал "Biometrika". Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Карл Пирсон (англ. Karl (Carl) Pearson, 27 марта 1857, Лондон — 27 апреля 1936, там же) — английский математик, статистик, биолог и философ; основатель математической статистики, один из основоположников биометрики. Автор свыше 650 опубликованных научных работ. В русскоязычных источниках его иногда называют Чарлз Пирсон.


1.    Биография.

Известный математик-статистик, биолог и философ, видный представитель идеалистической философии, родился 27 марта 1857 года в семье выдающегося адвоката и королевского советника Уильяма Пирсона.

Среднее и высшее образование получил Пирсон в Университетском колледже в Лондоне и в одном из колледжей Кембриджского университета, куда поступил в 1875 году, окончив его в 1879 году со степенью магистра. Сначала Пирсон намеревался пойти по следам отца, то есть стать юристом, но вскоре он отказался от этой мысли и всецело предался удовольствиям студенческой жизни.

Все же через некоторое время Пирсон уехал в Германию, где в Гейдельбергском университете слушал лекции по физике, а в Берлинском — лекции по’ римскому праву и по теории Дарвина. Интересно, что Пирсон с большим усердием знакомился с обычаями и культурой немцев. Он охотно общался с простыми людьми, с которыми вел диспуты столь же легко, как и с выдающимися учеными.

Взгляды Пирсона и его научные интересы во многом складывались под влияним профессора Кембриджского университета Джона Рутса. По-видимому, это был крупнейший математик, когда-либо работавший в Кембридже. Из 700 его учеников, около 500 стали впоследствии научными работниками. Почти всю свою жизнь Пирсон был связан с Лондонским университетом. После возвращения из Германии, всего лишь в двадцатисемилетнем возрасте Пирсон был назначен профессором прикладной математики и механики в этом университете. С этого времени и до самой смерти, последовавшей внезапно 27 апреля 1936 года, Пирсон бессменно работал в стенах Лондонского университета.

Короткие летние каникулы, которые Пирсон проводил в деревенском домике, он тоже посвящал любимой науке, и работал там столь же интенсивно, как и в своем городском кабинете. Во время летних каникул он написал свой монументальный труд „Жизнь, письма и работы Френсиса Гальтона". В области математической статистики крупнейшие заслуги Пирсона состоят в разработке следующих проблем:

1) развитие теории корреляции и применение ее в проблемах наследственности и эволюции видов;

2) введение в науку критерия „хи-квадрат", применяемого, в частности, для сравнения результатов эксперимента с результатами предусмотренными теоретически. Этот критерий нашел широкое применение в математической статистике;

3) введение системы кривых частоты (называемой системой кривых Пирсона) в качестве инструмента для математического описания явлений природы;

4) применение впервые в математической статистике метода моментов;

5) издание таблиц для биометриков и статистиков с подробными объяснениями относительно их применения.

Пирсон считается крупным авторитетом в области так называемой евгеники. Он был профессором Лондонского университета по этой дисциплине и директором Международной лаборатории евгеники Ф. Гальтона. За многочисленные труды по математической теории эволюции и наследственности Пирсону была присвоена медаль им. Дарвина Королевского общества евгеники, членом которого Пирсон стал в 1896 году. Большой заслугой этого ученого является основание журнала „Биометрика", изданием которого Пирсон руководил в течение 36 лет вплоть до самой смерти. В 1925—1926 годах Пирсон издавал „Ежегодник евгеники". Пирсон был выдающимся педагогом: он обладал редким даром ясной передачи своих знаний другим.

В 1896 году был избран членом Королевского общества, в 1898 году был награждён Медалью Дарвина. В 1900 году основал журнал «Biometrika», посвящённый применению статистических методов в биологии.

Опубликовал основополагающие труды по математической статистике (более 400 работ). Разработал теорию корреляции, критерии согласия, алгоритмы принятия решений и оценки параметров.


2.     Научная деятельность Карла Пирсона в области математической статистики.

С именем Пирсона связаны такие широко используемые термины и методы, как:

·        Кривые Пирсона

·        Распределение Пирсона

·        Критерий согласия Пирсона (критерий хи-квадрат)

·        Коэффициент корреляции Пирсона и корреляционный анализ

·        Ранговая корреляция

·        Множественная регрессия

·        Коэффициент вариации

·        Нормальное распределение

и многие другие.

Пирсон приложил много усилий для популяризации своих результатов в математической статистике для применения их в других прикладных науках, прежде всего в биологии, евгенике, медицине. Ряд его работ относится к философии и к истории науки.

Известным преемником и продолжателем его работ по прикладной математической статистике стал Рональд Эйлмер Фишер.

Наибольшую известность Карлу Пирсону дали:

Критерий согласия Пирсона (критерий хи-квадрат) и Распределение Пирсона.


2.1Критерий согласия Пирсона (критерий хи-квадрат).

Назначение критерия χ2 - критерия Пирсона

Критерий χ2 применяется в двух целях:

1) для сопоставления эмпирического распределения признака с теоретическим - равномерным, нормальным или каким-то иным;

2) для сопоставления двух, трех или более эмпирических распределений одного и того же признака.

Описание критерия

Критерий χ2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.

Преимущество метода состоит в том, что он позволяет сопоставлять распределения признаков, представленных в любой шкале, начиная от шкалы наименований. В самом простом случае альтернативного распределения "да - нет", "допустил брак - не допустил брака", "решил задачу - не решил задачу" и т. п. мы уже можем применить критерий χ2.

Чем больше расхождение между двумя сопоставляемыми распределениями, тем больше эмпирическое значение χ2.

Автоматический расчет χ2 - критерия Пирсона

Чтобы произвести автоматический расчет χ2 - критерия Пирсона, необходимо выполнить действия в два шага:

Шаг 1. Указать количество эмпирических распределений (от 1 до 10);

Шаг 2. Занести в таблицу эмпирические частоты;

Шаг 3. Получить ответ.

Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.

1. Проверка гипотезы о нормальном распределении.

Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант. Для удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:

варианты………..х1 х2 … хs

частоты………….п1 п2 … пs ,

где хi – значения середин интервалов, а пi – число вариант, попавших в i-й интервал (эмпирические частоты).

По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σВ. Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M(X) = D(X) = . Тогда можно найти количество чисел из выборки объема п, которое должно оказаться в каждом интервале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i-й интервал:

,

где аi и bi - границы i-го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: пi =n·pi.Наша цель – сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины


 

. (20.1)

Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупности закон распределения случайной величины (20.1) при стремится к закону распределения (см. лекцию 12) с числом степеней свободы k = s – 1 – r, где r – число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием

(20.2)

где α – уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .

Итак, для проверки нулевой гипотезы Н0: генеральная совокупность распределена нормально – нужно вычислить по выборке наблюдаемое значение критерия:

, (20.1`)

а по таблице критических точек распределения χ2 найти критическую точку , используя известные значения α и k = s – 3. Если - нулевую гипотезу принимают, при ее отвергают.

2. Проверка гипотезы о равномерном распределении.

При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности

необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:

, (20.3)

где а* и b* - оценки а и b. Действительно, для равномерного распределения М(Х) = , откуда можно получить систему для определения а* и b*: , решением которой являются выражения (20.3).

Затем, предполагая, что , можно найти теоретические частоты по формулам

Здесь s – число интервалов, на которые разбита выборка.

Наблюдаемое значение критерия Пирсона вычисляется по формуле (20.1`), а критическое – по таблице с учетом того, что число степеней свободы k = s – 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.

3. Проверка гипотезы о показательном распределении.

В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i – й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот ni (число вариант выборки, попавших в i – й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле


 

Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s – 2.


2.2 Распределение Пирсона (распределение хи-квадрат).

Распределение "хи-квадрат" является одним из наиболее широко используемых в статистике для проверки статистических гипотез. На основе распределения "хи-квадрат" построен один из наиболее мощных критериев согласия – критерий "хи-квадрата" Пирсона.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Критерий χ2 ("хи-квадрат") используется для проверки гипотезы различных распределений. В этом заключается его достоинство.

Расчетная формула критерия равна





где m и m’ - соответственно эмпирические и теоретические частоты

рассматриваемого распределения;

n - число степеней свободы.

Для проверки нам необходимо сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты.

При полном совпадении эмпирических частот с частотами, вычисленными или ожидаемыми S (Э – Т) = 0 и критерий χ2 тоже будет равен нулю. Если же S ( Э – Т) не равно нулю это укажет на несоответствие вычисленных частот эмпирическим частотам ряда. В таких случаях необходимо оценить значимость критерия χ2, который теоретически может изменяться от нуля до бесконечности. Это производится путем сравнения фактически полученной величины χ2ф с его критическим значением (χ2st).Нулевая гипотеза, т. е. предположение, что расхождение между эмпирическими и теоретическими или ожидаемыми частотами носит случайный характер, опровергается, если χ2ф больше или равно χ2st для принятого уровня значимости (a) и числа степеней свободы (n).

Распределение вероятных значений случайной величины χ2 непрерывно и ассиметрично. Оно зависит от числа степеней свободы (n) и приближается к нормальному распределению по мере увеличения числа наблюдений. Поэтому применение критерия χ2 к оценке дискретных распределений сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно на малочисленных выборках. Для получения более точных оценок выборка, распределяемая в вариационный ряд, должна иметь не менее 50 вариантов. Правильное применение критерия χ2 требует также, чтобы частоты вариантов в крайних классах не были бы меньше 5; если их меньше 5, то они объединяются с частотами соседних классов, чтобы в сумме составляли величину большую или равную 5. Соответственно объединению частот уменьшается и число классов (N). Число степеней свободы устанавливается по вторичному числу классов с учетом числа ограничений свободы вариации.

Так как точность определения критерия χ2 в значительной степени зависит от точности расчета теоретических частот (Т), для получения разности между эмпирическими и вычисленными частотами следует использовать неокругленные теоретические частоты.

В качестве примера возьмем исследование, опубликованное на сайте, который посвящен применению статистических методов в гуманитарных науках.

Критерий "Хи-квадрат" позволяет сравнивать распределения частот вне зависимости от того, распределены они нормально или нет.

Под частотой понимается количество появлений какого-либо события. Обычно, с частотой появления события имеют дело, когда переменные измерены в шкале наименований и другой их характеристики, кроме частоты подобрать невозможно или проблематично. Другими словами, когда переменная имеет качественные характеристики. Так же многие исследователи склонны переводить баллы теста в уровни (высокий, средний, низкий) и строить таблицы распределений баллов, чтобы узнать количество человек по этим уровням. Чтобы доказать, что в одном из уровней (в одной из категорий) количество человек действительно больше (меньше) так же используется коэффициент Хи-квадрат.

Разберем самый простой пример.

Среди младших подростков был проведён тест для выявления самооценки. Баллы теста были переведены в три уровня: высокий, средний, низкий. Частоты распределились следующим образом:

Высокий (В) 27 чел.

Средний (С) 12 чел.

Низкий (Н) 11 чел.

Очевидно, что детей с высокой самооценкой большинство, однако это нужно доказать статистически. Для этого используем критерий Хи-квадрат.

Наша задача проверить, отличаются ли полученные эмпирические данные от теоретически равновероятных. Для этого необходимо найти теоретические частоты. В нашем случае, теоретические частоты – это равновероятные частоты, которые находятся путём сложения всех частот и деления на количество категорий.

В нашем случае:



(В + С + Н)/3 = (27+12+11)/3 = 16,6

Формула для расчета критерия хи-квадрат:



χ2 = ∑(Э - Т)І / Т

Строим таблицу:

Эмпирич. (Э)

Теоретич. (Т)

(Э - Т)І / Т

Высокий

27 чел.

16,6

6,41

Средний

12 чел.

16,6

1,31

Низкий

11 чел.

16,6

1,93

Находим сумму последнего столбца:

χ2= 9,64

Теперь нужно найти критическое значение критерия по таблице критических значений (Таблица 1 в приложении). Для этого нам понадобится число степеней свободы (n).

n = (R - 1) * (C - 1)



где R – количество строк в таблице, C – количество столбцов.

В нашем случае только один столбец (имеются в виду исходные эмпирические частоты) и три строки (категории), поэтому формула изменяется – исключаем столбцы.

n = (R - 1) = 3-1 = 2

Для вероятности ошибки p≤0,05 и n = 2 критическое значение χ2 = 5,99.

Полученное эмпирическое значение больше критического – различия частот достоверны (χ2= 9,64; p≤0,05).

Как видим, расчет критерия очень прост и не занимает много времени. Практическая ценность критерия хи-квадрат огромна. Этот метод оказывается наиболее ценным при анализе ответов на вопросы анкет.


Разберем более сложный пример.

К примеру, психолог хочет узнать, действительно ли то, что учителя более предвзято относятся к мальчикам, чем к девочкам. Т.е. более склонны хвалить девочек. Для этого психологом были проанализированы характеристики учеников, написанные учителями, на предмет частоты встречаемости трех слов: "активный", "старательный", "дисциплинированный", синонимы слов так же подсчитывались. Данные о частоте встречаемости слов были занесены в таблицу:

"Активный"

"Старательный"

"Дисциплинированный"

Мальчики

10

5

6

Девочки

6

12

9



Для обработки полученных данных используем критерий хи-квадрат.

Для этого построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем:

"Активный"

"Старательный"

"Дисциплинированный"

Итого:

Мальчики

10

5

6

21

Девочки

6

12

9

27

Итого:

16

17

15

s=48



Теоретически, мы ожидаем, что частоты распределятся равновероятно, т.е. частота распределится пропорционально между мальчиками и девочками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (s).

"Активный"

"Старательный"

"Дисциплинированный"

Итого:

Мальчики

(21 * 16)/48 = 7

(21 * 17)/48 = 7.44

(21 * 15)/48 = 6.56

21

Девочки

(27 * 16)/48 = 9

(27 * 17)/48 = 9.56

(27 * 15)/48 = 8.44

27

Итого:

16

17

15

s=48



Итоговая таблица для вычислений будет выглядеть так:

Категория 1

Категория 2

Эмпирич. (Э)

Теоретич. (Т)

(Э - Т)І / Т

Мальчики

"Активный"

10

7

1,28

"Старательный"

5

7,74

0,8

"Дисциплинированный"

6

6,56

0,47

Девочки

"Активный"

6

9

1

"Старательный"

12

9,56

0,62

"Дисциплинированный"

9

8,44

0,04

Сумма: 4,21



χ2 = ∑(Э - Т)І / Т



n = (R - 1), где R – количество строк в таблице.

В нашем случае хи-квадрат = 4,21; n = 2.

По таблице критических значений критерия находим: при n = 2 и уровне ошибки 0,05 критическое значение χ2 = 5,99.

Полученное значение меньше критического, а значит принимается нулевая гипотеза.

Вывод: учителя не придают значение полу ребенка при написании ему характеристики.


Заключение.

К. Пирсон внёс значительный вклад в развитие математической статистики (большое количество фундаментальных понятий). Основная философская позиция Пирсона формулируется следующим образом: понятия науки - искусственные конструкции, средства описания и упорядочивания чувственного опыта; правила связи их в научные предложения вычленяются грамматикой науки, которая и является, философией науки. Связать же разнородные понятия и явления позволяет универсальная дисциплина - прикладная статистика, хотя и она по Пирсону субъективна.

Многие построения К. Пирсона напрямую связаны или разрабатывались с использованием антропологических материалов. Им разработаны многочисленные способы нумерической классификации и статистические критерии, применяемые во всех областях науки.


Литература.

1.     Боголюбов А. Н. Математики. Механики. Биографический справочник. — Киев: Наукова думка, 1983.

2.     Колмогоров А. Н., Юшкевич А. П. (ред.). Математика XIX века. — М.: Наука. — Т. I.

3.     3. Боровков А.А. Математическая статистика. М.: Наука, 1994.

4.     8. Феллер В. Введение в теорию вероятностей и ее приложения. - М.: Мир, Т.2, 1984.

5.     9. Харман Г., Современный факторный анализ. — М.: Статистика, 1972.


Информация о файле
Название файла Карл Пирсон. Биография и научная деятельность от пользователя z3rg
Дата добавления 27.1.2016, 0:34
Дата обновления 27.1.2016, 0:34
Тип файла Тип файла (zip - application/zip)
Скриншот Не доступно
Статистика
Размер файла 63.13 килобайт (Примерное время скачивания)
Просмотров 4903
Скачиваний 108
Оценить файл