![]() |
|
|
Перейти на главную Журналы тальных точек на оси х. При островершинных распределениях (рис. 4-3, а) экспериментальные точки в центре распределения располагаются плотно и медиана определяется более точно. При плосковершинных (рис. 4-3, б), а тем более при двухмодальных распределениях (рис. 4-3, е) экспериментальные точки в центре располагаются редко и неопределенность медианы резко возрастает, что показано кривыми Хмг на рис. 4-2, а для композиций экспоненциальных (с показателем степени а = /g, 7з и 1) и двузначного дискретного распределений. При симметричных двухмодальных распределениях (рис. 4-3, е) экспериментальные точки группируются наиболее плотно в области 25%- и 75%-ной квантилей, которые Дж. Тьюки [43] предложил именовать левым и правым сгибами распределения! В результате этого при двухмодальном распределении с наименьшей дисперсией определяются именно координаты сгибов. Поэтому для таких распределений эффективна оценка координаты центра, определяемая как центр сгибов в виде = (Хъ + о,7б)/2, где Хь и Хо,7Б - соответственно 25%- и 75%-ная квантили, т. е. сгибы эмпирического распределения. Изменение эффективности оценки координаты центра распределения как центра сгибов Xg показано на рис. 4-2 кривой Xd для композиций распределения Лапласа и дискретного двузначного распределения, т. е. островершинных, и кривой Хса для композиций нормального и дискретного двузначного, т. е. кругловершинных. Кривая X(j8 пересекает уровень Е = 1 при и та 0,79, а кривая Xd - при х = 0,57. Так как при относительно малом объеме выборки экспериментальных данных трудно установить, является ли исследуемое двухмодальное распределение островершинным или кругловершинным, то на рис. 4-2, а штриховой линией нанесена некоторая средняя кривая, которая описывается простейшим соотношением Е = = 1,4/(е - 1) и поэтому легко может бьпъ использована на практике. Она пересекает уровень Е = 1 при х = 0,645. Для ограниченных распределений (равномерного, трапецеидального, арксинусоидального и т. д.) оказывается эффективной простейшая оценка координаты центра распределения в виде центра размаха экспериментальных данных, т. е. в виде полусуммы крайних членов вариационного ряда X(i) < < л;(2) < ... < xn) Хр = (X(,) -f X(„))/2. Дисперсия и эффективность такой оценки зависят от вида распределения и объема выборки и для некоторых распределений и п = 20 приведены в табл. 4-1. Соответствующая кривая зависимости эффективности = / (и) помечена на рис. 4-2, а Хрго- Она пересекает уровень £ = 1 при X = 0,675. Таким образом, кривые рж. 4-2, а показывают, что оценка центра распределения в виде X, безусловно, эффективна лишь для одномодальных распределений, близких к нормальному с контрэксцессом и от 0,515 до 0,645 (с е от 2,4 до 3,8). Для полого спа-
дающих распределений с е > 3,8 более эффективна оценка центра медианой, для двухмодальных распределений - центром сгибов, а для ограниченных - центром размаха. Особый jHHTepec для практики представляет высокая эффективность оценки в виде центра размаха. Такая оценка широко используется чисто интуитивно (отмечаются максимальные и минимальные значения и за центр принимается середина этого интервала). Оказывается, что для строго ограниченных распределений (равномерного, арксинусойдального, но не треугольного) она много эффективнее X. Так, при равномерном распределении дисперсия Xpjnpn п = 80 равна дисперсии X при п = 1200, т. е. переход от X к Хр при сохранении той же точности позволяет в 15 раз сократить объем наблюдений. Этот эффект убывает при уменьшении п (£ = 1 при п « 9), но даже при п = 20 дисперсия Хр равна дисперсии X при п = 30, т. е. сохраняется пол утор акр атный выигрыш в необходимом объеме выборки. Еще более резко это различие проявляется при арксинусо-идальном распределении. В этом случае Е = 1 достигается при и = 8, а при и = 20 дисперсия Хр равна дисперсии X при п = = 328, т. е. £ =9 16,4 раза. Отсюда следуют прямые рекомендации по построению цифровых усредняющих устройств или выбору программ для усреднения на ЭВМ. Следуя традициям, усреднение осуществляют путем вычисления X, в то время как переход к определению Хр мог бы дать выигрыш в десятки раз. Чувствительность различных оценок координаты центра распределения к наличию промахов в выборе экспериментальных данных. Сопоставляя различные оценки определения центра распределения, необходимо, кроме их эффективности (размера дисперсии), учитывать чувствительность к наличию в выборке про- хов т. е. резко выделяющихся наблюдений, принадлежащих угой генеральной совокупности. С этой точки зрения оценка виде центра размаха Хр исключительно чувствительна к наличию промахов, так как она определяется только по наиболее удаленным от центра наблюдениям, каковыми промахи и являются. Оценка центра распределения в виде X также слабо защищена от влияния промахов, - влияние промаха ослабляется лишь в п раз, в то время как его возможный размер ничем не ограничен. Защищенными от влияния размера промахов являются лишь квантильные оценки, т. е. медиана и центр сгибов, так как они не зависят от координат промахов. Однако явлением, резко понижающим точность квантильных оценок, является естественное группирование отсчетов, обусловленное дискретностью возможных отсчетов случайной величины. Пусть, например, она имеет разброс от 608 до 612 единиц и измеряется цифровым прибором с диапазоном от О до 999 квантов. Хотя сама величина в диапазоне от 608 до 612 единиц может принимать любые дробные значения, на выходе прибора будут фиксироваться лишь отсчеты 608-609- 610-611-612 единиц. Увеличивая объем выборки и вычисляя X, можно установить, что центр распределения находится, например, при X = 610,53. Однако сгибы такого распределения при сколь угодно большом объеме выборки будут оставаться равными 609 и 611, а медиана и центр сгибов неизменно равными 610, что не позволяет получить какого-либо уточнения координаты центра при любом увеличении объема выборки и является основным недостатком квантильных оценок. Попытка сочетать защищенность квантильных оценок от промахов и возможность уточнения с ростом выборки среднего арифметического приводит к смешанному методу определения X не по всем п, а лишь после отбрасывания с каждого из концов вариационного ряда равной их доли (например, по 10 или 25%). В последнем случае сумма при определении Хо,б из 50% центральных наблюдений берется не от 1 до п, а от 0,25п до 0,75п, т. е. " ln/4 1 В приведенном примере такая методика вычисления Хо,б приведет к тому, что из суммы будут опущены все = 608 и x) = - 612, а также часть X(,) = 609 и = 611, дополняющая отброшенные с каждого конца до 25%. Оценка Хо,5 будет вычисляться из оставшихся х = 609, X(,) = 611 и всех = 610, и если их достаточно много, то она может быть заметно уточнена. Медиана из пяти разных оценок центра (обозначим ее Хь). о условиях, когда еще нет данных о виде распределения и нет Возможности выбрать наиболее эффективную оценку согласно 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 [47] 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |