![]() |
|
|
Перейти на главную Журналы о, 4 И 8. Обойти эту трудность можно, воспользовавшись тем, что наиболее часто при обработке погрешностей встречаются распределения с е от 1,8 до 6, т. е. отравномерного до распределения Лапласа. Для этих граничных значений из формулы (5-11) получаем т„„„ = 0,55п°- и т„,ах = l.SSn" (5-13) и искомое значение т может быть выбрано близким к этому интервалу. При этом предпочтительно выбирать т нечетным, так как при четном т и островершинном или двухмодальном симметричном распределении в центре гистограммы оказываются два равных по высоте столбца и середина кривой распределения принудительно уплощается. В итоге проведенного сопоставления различных предложений по выбору числа интервалов группирования экспериментальных данных можйо сформулировать следующие выводы. 1. Задача выбора числа интервалов группирования экспериментальных данных при их статистической обработке есть задача оптимальной фильтрации случайных отклонений гистограммы от плавной кривой плотности распределения, соответствующей генеральной совокупности. 2. С этой*точки зрения, безусловно, существует оптимальное число т интервалов группирования, обеспечивающее при данной форме закона распределения и данном объеме выборки наибольшую близость ступенчатой гистограммы (или ее полигона) к плавной кривой плотности распределения генеральной совокупности. 3. Использование интервалов неравной длины, а равной вероятности, для которых существует рекомендация (5-4) Манна и Вальда, позволяет автоматически учитывать форму закона распределения, но на практике это неудобно, чем и объясняются приведенные выше настойчивые рекомендации Кендалла и Стью-арта о предпочтительности равновеликих интервалов. 4. При использовании интервалов постоянной длины их оптимальное число сильнее зависит от эксцесса распределения е, чем от объема выборки п. 5. Зависимость т от объема выборки, как теоретически [см. (5-4)], так и экспериментально [см. (5-11)], имеет вид т = Atf- и в дальнейшем уточнении, по-видимому, не нуждается. Что же касается аппроксимации зависимости m от е в виде А (в) == (е -f-+ 1,5)/6 [см. выражение (5-11)] или А (е) = 80.8/3 [см. (5-12)], то, естественно, желательно их аналитическое уточнение. 6. Для практического назначения числа интервалов группирования вполне достаточно определение его оптимального интервала по соотношениям (5-13), тем более, что при назначении его нечетным выбор возможных его значений оказывается крайне ограниченным. 7. При практическом выборе интервалов группирования полезно иметь в виду следующее з.умечание М. Кендалла, А. Стью- арта [15, с. 201: «Несмотря на важность равенства класс-интервалов, бывает полезно рассмотреть более мелкие класс-интервалы на тех участках, где частоты меняются очень быстро». Так, при островершинном распределении центральный столбец шириной d при построении полигона полезно рассматривать состоящим из двух столбцов шириной d/2, а самые крайние столбцы, в развитие рекомендации В. Кокрена, при необходимости можно делать шириной 2d. 8. В тех случаях, когда гистограмма или полигон распределения погрешностей оказываются явно двухмодальными, число столбцов гистограммы может бьп-ь увеличено в 1,5-2 раза, чтобы на каждый из двух «колоколов» приходилось примерно по т интервалов. 5-3. ПРИМЕРЫ ПОСТРОЕНИЯ ГИСТОГРАММ И ПОЛИГОНОВ РАСПРЕДЕЛЕНИЙ Главным фактором, затрудняющим идентификацию формы кривой распределения экспериментальных данных при относительно малой выборке, является случайность (т. е. неповторимость от выборки к выборке) появления различных значений случайной величины. Надежным путем преодоления этого разброса является увеличение объема экспериментальных данных. Однако это сопряжено с резким ростом затрат на проведение измерений, а часто невозможно по самой сути эксперимента. Поэтому все усилия экспериментаторов направлены на то, чтобы отгадать форму кривой распределения генеральной совокупности, имея из нее лишь слабопредставительную малую случайную выборку. При этом опираются на максимальное использование априорной информации о виде распределения погрешности, заключающейся в том, что кривая плотности распределения предполагается плавной и симметричной. Аксиома плавности устанавливается исходя из того, что сама измеряемая величина является непрерывной. Аксиома симметрии базируется на относительной малости размера погрешностей. Поэтому если функция преобразования прибора даже существенно нелинейна, то на малом ее участке, соответствующем размаху погрешности, изменение ее крутизны столь незначительно, что не может вызвать заметной скошенности кривой распределения. Исходя из этого появление скошенности или чередование всплесков и провалов эмпирического распределения погрешности приписывается исключительно случайности малой выборки, в то время как распределение генеральной совокупности считается плавным и симметричным. Эти аксиомы подтверждаются практикой: при увеличении объемов выборки до тысяч и десятков тысяч наблюдений эмпирические распределения погрешностей чаще всего становятся плавными, симметричными и хорошо воспроизводимыми. Методику построения гистограммы распределения экспери- О ID Рис. 5-5 ментальных данных можно проиллюстрировать конкретным примером. Пусть в результате эксперимента было зарегистрировано п = 38 отсчетов погрешностей Xj. Прежде всего их нужно расставить в порядке возрастания, т. е. образовать из них вариационным ряд. Проще всего это сделать путем нанесения этих значений вдоль заранее начерченной оси х, отмечая каждое из них точкой (рис. 5-5). "Еакое построение называется линейчатой диаграммой вариационного ряда. После нанесения всех наблюдавшихся значений на линейчатую диаграмму по ней легко составить таблицу вариационного ряда: Kt ............-24 -18 -11 -6 ~Z о +4 гц............. 1 3 1 5 3 8 2 x, . . . .4........ +7 -Ы2 -Ы6 -fl9 -f22 -f28 R, . . - . .5 2 3 3 1 1 Определение координаты центра распределения. Для этого предварительно на линейчатой диаграмме полезно отметить положение точек или промежутков между ними, соответствующих медиане и сгибам распределения. Точки, между которыми располагаются эти оценки, обведены на рис. 5-5 прямоугольными рамками. По этим данным находятся значения пяти оценок центра распределения, описанных в § 4-3. Оценка координаты центра в виде медианы, т. е. 50%-ной квантили, при п = 38 равна средней абсциссе 19-й и 20-й точек вариационного ряда. В данной выборке обе эти точки лежат в одном и том же столбце линейчатой диаграммы при Xj = О, поэтому получаем Хм == 0. Оценки сгибов, т. е. 25%- и 75%-ной квантилей (средняя абсцисса 9-й и 10-й точек и, соответственно, 28-й и 29-й точек), в рассматриваемом примере равны: Хо,2б = -6 и Хо,7б == (7 -f 12)/2 = = -f 9,5. Отсюда оценка центра сгибов (округленно, в соответствии с § 1-4) Хс == (--б -Ь 9,5)/2 == -Ы,75 -fl,8. Оценка центра размаха равна полусумме крайних точек вариационного ряда и составляет Хр ( ~ 24 -f 28)/2 = -f 2,0. Среднее арифметическое выборки X = Sxjnj/n = -fO,125 -fO,l. Для определения среднего арифметического 50% центральных наблюдений сумма должна быть рассчитана только для точек, находящихся между сгибами, и поделена на п/2. Это дает Хо,б = -f 2,5. Расстановка полученных оценок центра в порядке возрастания дает вариационный ряд: 0; +0.1; +1,8; +2,0; +2,5. Медиану 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 [58] 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |