Перейти на главную Журналы

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 [49] 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98


кругловершинных распределений в виде композиций нормального и дискретного двузначного распределений.

Из сопоставления кривых рис. 4-4 следуют достаточно важные для практики выводы. Для распределений с контрэксцессом к = = 0,6-f-0,8 рассматриваемые оценки могут быть достаточно точно (6 = 5%) найдены по относительно малым выборкам {п = 50-4-200). Необходимый объем выборки существенно зависит от вида распределения. Так, если для определения оценки о с = 10% при равномерном распределении необходимо п = 20, то при нормальном распределении необходимо п = 50, а при распределении Лапласа требуется уже п = 130. Еще более резко проявляется подобная зависимость при определении оценки контрэксцесса к (для 8= = 10% требуется при равномерном распределении п = 10, при нормальном - п =70, а при распределении Лапласа - п = 750).

Для распределений с к == 0,4-=-0,8 рассеяние оценки Дд имеет примерно то же значение, что и рассеяние оценки о (кривые По и идут рядом). Однако при % <0,2 положение существенно меня- -ется, так как рассеяние оценки о при к О стремится к оо, в то время как оценка Дд имеет конечное рассеяние и при и = 0. Но при и-)-1, наоборот, рассеяние оценок о и х падает до нуля, а рассеяние оценки Дэ резко возрастает.

Отмеченные свойства приводят к тому, что в диапазоне значений % от 0,4 до 0,8, т. е. для наиболее часто встречающихся законов распределения погрешностей, с наименьшим разбросом определяется оценка энтропийного коэффициента k. Как видно из кривой Пй на рис. 4-4, для = 0,05 = 5% в этом диапазоне и достаточно выборки с объемом всего п = 25--50 отсчетов, в то время как для получения с той же погрешностью оценок о и Дд, нужны выборки Б 200-300 отсчетов.

Странность этого положения подчеркивается еще тем, что оценка k находится путем деления друг на друга оценок Дд и о.



Казалось бы, что при использовании оценки Ад, найденной с погрешностью бд = 12%, и оценки о, найденной с погрешностью

= 13%, рассеяние оценки k должно составлять в лучшем случае Sft = У 13 + 12 = 18%. В действительности же это рассеяние составляет 6 = 0,05 = 5%. Это могло бы быть объяснено, например, тем, что найденные по одной и той же выборке оценки АдИ о оказываются сильно взаимно коррелированными. Вследствие этого рассеяние оценки k определяется как Sfc = УЬ - бд = = 1/132- 122 = 5%. Прямой расчет коэффициента корреляции Рдо показывает, что он остается близким к единице при изменении контрэксцесса распределений от 0,3 до 0,7, а затем симметрично падает до рд = О при к О и к -> 1. Именно этим и обусловлен U-образный характер кривой n,j (рис. 4-4) и очень малое рассеяние уценки k при 0,4 < к < 0,8.

Практический вывод проведенного сопоставления рассеяния статистических оценок и интервалов их неопределенности с применением эксцесса состоит в том, что все распределения по рассеянию их оценок можно разделить на две части.

Распределения ос от 0,6 до I (с эксцессом е от 1 до 3), т. е. кру-тоспадающие распределения (арксинусоидальное, равномерное, трапецеидальные, треугольное и до нормального), оцениваются относительно легко, так как кривые и на рис. 4-4 в области изменения X от 1 до 0,6 идут очень полого и для обеспечения = = S« = 10% достаточно выборки исходных данных всего в 50-70 отсчетов. Параметры же распределений ос < 0,6, т. е. с эксцессом более 3, имеющих длинные медленно спадающие «хвосты», оцениваются очень трудно, так как кривые рис. 4-4 в этой области круто устремляются вверх. Для определения параметров этих распределений с достаточной точностью нужны большие выборки исходных данных и тем большие, чем больше их эксцесс. Расположение кривых для Па И на рис. 4-4 (для S = 5%) показывает, что увеличение объемов выборки даже до 500, 1000, 1500 отсчетов не позволяет достоверно оценить значение х при к < 0,4 (е > 6), а с. к. о. при к < 0,2 (е > 24).

Эти объективные свойства распределений вызвали в последние годы интенсивное развитие специальных методов обработки, достаточно «дюжих» (по-английски - робастных) к росту эксцесса, чтобы обеспечить приемлемую точность получаемых оценок и для распределений с «утяжеленными хвостами», как принято выражаться в работах по «робастному» оцениванию. С этими идеями можно ознакомиться по переведенным на русский язык книгам П. Хью-бера, Р. Лонера и Г. Уилкинсона [44, 47] и др.

Некоторые методы определения опенок, устойчивых к «утяжеленным хвостам», были изложены выше (определение координаты центра медианой, центром сгибов, медианой из пяти оценок), а некоторые будут описаны в дальнейшем (защита от далеко отстоящих отсчетов и др.). Однако наиболее действенным приемом



является идентификация вида обрабатываемого распределения и использование тех оценок, которые наиболее эффективны для данного распределения. Поэтому методам идентификации формы распределений посвящена гл. 5.

Изложенные выше далеко не очевидные зависимости свойств статистических оценок параметров распределений от вида закона распределения еще раз подчеркивают, что требования, которые были введены в ГОСТ 8.ОН-72, о необходимости определения и указания вида закона распределения погрешности являются реальной потребностью повседневной практики и его отмена в 1984 г. ради механического сокращения общего -числа стандартов вряд ли была научно обоснованна.

4-5. ПРОМАХИ И МЕТОДЫ ИХ ИСКЛЮЧЕНИЯ

Одним из условий правомерности статистической обработки выборки является требование ее однородности, т. е. принадлежности всех ее членов к одной и той же генеральной совокупности. Однако на практике это требование очень часто нарушается. Ясно, что совместно обрабатывать данные, принадлежащие двум совершенно различным генеральным совокупностям, бессмысленно. Однако дать формальное определение «чужим» отсчетам, т. е. перечислить объективные признаки, по которым их можно было бы достоверно отличать от «нужных» отсчетов, практически невозможно.

Если измерения и их последующая обработка проводятся одним и тем же человеком, то для исключения из выборки «неподходящих» отсчетов он может воспользоваться своими воспоминаниями о каких-либо нарушениях условий эксперимента в момент получения этих отсчетов, положиться на свою интуицию и т. п. Но Б тех случаях, когда обработка, а, возможно, и сам эксперимент проводятся ИВК без участия оператора, формальные методы исключения «чужих» для данной выборки отсчетов приобретают первостепенное значение.

Загрязнения и промахи. Отсчеты, принадлежащие другой генеральной совокупности, по СБОИМ значениям могут не отличаться суц;ественно от значений интересующей нас генеральной совокупности. Обнаружить одновременное присутствие двух таких групп отсчетов в анализируемой выборке (при достаточно большом ее объеме) можно по виду кривой плотности распределения (см. рис. 5-9, а и б), получающейся в результате такого смешения. По Виду подобной кривой плотности распределения ясно, что выборка состоит из смеси отсчет-ов двух генеральных совокупностей с разными законами распределения. Наличие таких аномальных отсчетов принято называть загрязнением выборки, однако выделить члень! выборки, принадлежащие к каждой из генеральных совокупностей, в этом случае практически невозможно.




0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 [49] 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98