![]() |
|
Перейти на главную Журналы
Рис. 4-Б Другим видом аномальных отсчетов являются отсчеты, принадлежащие к разным генеральным совокупностям и различающиеся по своим значениям. Если это различие настолько существенно (рис. 4-5, а), что выборки на гистограмме не соприкасаются и не смешиваются между собой, то визуальное разделение таких двух групп отсчетов не представляет труда. Отсчеты, резко отклоняющиеся по своим значениям от большинства других отсчетов выббрки, принято называть промахами и исключать из выборки. Но особую неприятность при обработке экспериментальных данных доставляют отсчеты, которые, как это показано на рис. 4-5, б, хотя и не входят в компактную группу основной массы отсчетов выборки, но и не удалены от нее на значительное расстояние. Такой*отсчет будем называть предполагаемым промахом. Таким образом, единственным формальным признаком «чужого» наблюдения является его аномально большое удаление от центра распределения. Поэтому в экспериментальной практике исследователи издавна стали просто отбрасывать крайние, «слишком» удаленные от центра наблюдения. Этот способ получил назва- ние цензурирования выборки. Однако для принятия решения об исключении предполагаемого промаха необходимы какие-либо формальные критерии. Методы назначения границ цензурирования выборки для удаления промахов. Простейший из таких методов заключается в использовании «правила З0», когда по выборке с удаленными отсчетами, похожими на промахи, вычисляется оценка о и граница цензурирования назначается в виде j Xj = За, а все (Xj ( > За признаются промахами и удаляются из дальнейших расчетов. Г. А. Агекян [1 ] отмечает, что «правило За» во многих случаях может оказаться слишком «жестким» и рекомендует оценки Хц и а определять без использования отсчетов, предполагаемых промахами, а границу цензурирования назначать в зависимости от объема выборки п: при 6<п< 100 при 100<п<1000 при 1000<п< 10000 Еще более квалифицированно (с использованием таблиц вероятности крайних членов вариационного ряда для нормального распределения) это было регламентировано в ГОСТ 11.002-73.- iXrp = 4a; Х,р = 4,5а; Хгр = 5а. ![]() Рие. 4-6 Однако для распределений, отличающихся от нормального, использование подобных таблиц лишено смысла. Действительно, если для нормального распределения при n = 100 появление >- За можно считать промахом, то для равномерного распределения (рис. 4-6) промахом является уже\х1\ = 1,8а, в то Бремя как для экспоненциального распределения Лапласа (л: = Зо есть, безусловно, отсчет, принадлежащий данной выборке. Таким образом, границы tc цензурирования выборки должны зависеть не только от объема п выборки, но и от вида распределения. Назначая ту или иную границу цензурирования, необходимо оценить уровень значимости q = I - Р, т. е. вероятность отсечь какую-то часть отсчетов, принадлежащих обрабатываемой выборке. Этот уровень значимости может быть выбран на основании следующих рассумадений. Как было показано в § 2-2, п экспериментальных отсчетов разбивают ось х в пределах от - оо до -f-oo на п -f- 1 интервалов и между крайними членами вариационного ряда заключено п - 1 интервалов. Если назначить границы цензурирования так, чтобы расстояние между ними совпадало с расстоянием между крайними точками, то малейшая ошибка в определении координаты центра распределения будет приводить к тому, что одна из крайних точек будет оказываться за границей цензурирования, т. е. назначение границ с уровнем значимости 4 = 1 - Р, где Р := (п - 1)/(п + 1), обеспечивает всегда отсечение какой-то*одной точки выборки (слева или справа). Если же поставить условие, что границы цензурирования должны в среднем отсекать менее одной точки выборки, то Р = = п/{п --1) и q = 1 - Р =1/(п + 1). Это соотношение и определяет выбор границ цензурирования в функции от объема выборки п. Однако зависимость Р = / (О существенно различна для разных законов распределения. Рассматривая этот вопрос применительно к погрешностям результатов измерений, ограничим разнообразие законов распределения лишь теми четырьмя классами симметричных распределений, которые использовались выше, а имен- но: классом двухмодальных кругловершинных композиций нормального и дискретного двузначного распределения в пределах изменения эксцесса от е = = 1,5 до Е = 3, классом островершинных двухмодальных композиций дискретного двузначного распределения и распределения Лапласа в пределах изменения е от 1,5 до 6, классом композиций равномерного распределения с экспоненциальным распределением с показателем степени о, = 1/2 в пределах изменения эксцесса 8 от 1,8 до 6 и классом экспоненциальных распределений также в пределах изменения эксцесса е от 1,8 до 6. Зависимости квантильного множителя t перечисленных распределений от 8 для Р = п1(п + 1) при п = 100 и п = 1000 представлены в виде кривых на рис. 4-7. Для выполнения условия q < 1/(и. -н 1) значения 4р выбираемых границ цензурирования должны быть при всех сочетаниях е и н. больше t = / (8) для всего представленного на рис. 4-7 жгута кривых, т. е., например, соответствовать огибающим этого жгута, нанесенным на рис. 4-7 штриховьми линиями. Огибающие могут быть аппроксимированы более простыми выражениями (без использования переменных или дробных показателей степени в отличие от кривых Р = / (е, 1), обсуждавшихся в § 2-6), например выражением
Рис. 4-7 ftrp = 1,55-f 0,8 - 1 Ig (п/10). (4-П) согласно которому и нанесены штриховые кривые на рис. 4-7. Семейство кривых 4р = / (е, п) согласно формуле (4-11) для п в пределах от 20 до 10 ООО и е от 1,5 до 6 представлено на рис. 4-8, из которого видно, как зависит граница цензурирования от эксцесса распределения и объема выборки. При использовании для удаления промахов соотношения (4-11) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 [50] 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||