![]() |
|
|
Перейти на главную Журналы При слишком малом числе т интервалов гистограмма будет отличаться от действительной кривой распределения вследствие слишком крупной ступенчатости, из-за чего характерные особенности будут просто потеряны. Например, если интервал группирования брать равным размаху экспериментальных данных, то любое распределение будет сведено к равномерному, а если делить размах на три равных интервала, то любое колоколообразное распределение будет сведено к треугольному. Этих чисто качественных оценок вполне достаточно для доказательства самого факта суш.ествования оптимального числа т интервалов, обеспечивающего наибольшую близость ступенчатой гистограммы к плавной кривой распределения. Исходя из предположения, что генеральная совокупность, И.Э которой взята исследуемая выборка, имеет гладкую кривую распределения, естественно считать, что появляющиеся при группировании Цровалы и выбросы являются случайным «шумом», порождаемым случайностью попадания тех или иных значений Xt в малую выборку. Укрупнение интервалов группирования является методом фильтрации этого случайного «шума». Однако при слишком протяженных интервалах начинает «фильтроваться» уже не «шум», а сам «сигнал», т. е. начинают сглаживаться особенности искомого закона распределения. Таким образом, задача выбора оптимального числа интервалов при построений гистограммы - это задача оптимальной фильтрации, а оптимальным числом т интервалов является такое, когда максимальное возможное сглаживание случайных флюктуации данных сочетается с минимальным искажением от сглаживания самой кривой искомого распределения. Для распределений погрешностей одним из практических признаков приближения к оптимуму может служить исчезновение в гистограмме провалов и близким к оптимальному может считаться наибольшее т, при котором гистограмма еще сохраняет плавный характер. Иногда это требование выражают по-другому, рекомендуя, чтобы столбцы имели такую ширину, при которой в наименьшем столбце гистограммы содержалось бы не менее 10 наблюдений. Эту рекомендацию можно выполнить лишь при п > 200, поэтому В. Кокрен [55! замечает, что на практике в крайних столбцах гистограммы можно допустить и менее 5 наблюдений. В литературе по статистической обработке экспериментальных данных приводятся и более конкретные рекомендации относительно выбора числа т интервалов группирования, которые, однако, существенно различаются между собой. Эти рекомендации можно разделить на две группы: рекомендации, приводимые без использования каких-либо формальных критериев, и рекомендации, получаемые на основе использования различных критериев близости между ступенчатой гистограммой и плавной кривой распределения. К первой группе следует отнести рекомендации, приводимые ![]() 10000 Рис. 5-3 В подавляющем большинстве пособий по математической статистике (например, .151, с. 921), где говорится, что группировать данные следует так. чтобы получилось не меньше 6 и не более 20 интервалов. Иногда эта рекомендация дается еще более категорично; так, в работе [25, с. 201 сказано:«число разрядов обычно принимается равным 12, причем допускаются отклонения от этого числа на 2-3 единицы в ту или другую сторону». Во многих, как классических [601. так и изданных в последние годы [6, 361, руководствах по статистике для определения оптимального числа интервалов рекомендуется формула Старджеса: т = loga п -f- 1 = 3,3 Ig л -f 1. (5-1) P. Шторм [511 и другие авторы рекомендуют для определения оптимального числа интервалов формулу Брукса и Каррузера (без ссылки на первоисточник) в виде т =5\gn. (5-2) В книге 1964 г. И. Хайнхольд и К. Гаеде [571 рекомендуют для той же цели соотношение т = Уп. (5-3) В изданной ВНИИМ им. Д. И. Менделеева в 1972 г. «Рекомендации по методам обработки результатов наблюдений», имеющей силу директивного документа, также без каких-либо обоснований приводится таблица, согласно которой, в зависимости от объема выборки от 40 до 10 ООО, число т назначается от 7 до 22. Для сопоставления между собой перечисленных рекомендаций на рис. 5-3 представлены зависимости, соответствующие рекомендации Старджеса (прямая i), Брукса (прямая 2) и Хайнхольда (кривая 3). Рекомендация БНИИМ показана заштрихованными прямоугольниками. В области значений п 100 эти рекомендации близки между собой, однако при п, равном 1000 или 10 ООО, - они существенно различны. При этом следует отметить, что хотя посылки, на основании которых получены эти рекомендации, не сообщаются, почти все авторы, приводя их, указывают, что они определяют именно «оптимальное» значение т, а следовательно, отклонение от него влечет за собой уменьшение эффективности обработки данных. В этом отношении показательна «кочующая» из книги в книгу формула Старджеса. Если же обратиться к первоисточнику, а это заметка 161S на полстраницы в журнале Американской ассоциации статистиков за 1926 год, то оказывается, что автор выдвигал чисто эвристическое предположение. Старджес отмечает, что свойством т = loga п + 1 обладает число т биномиальных коэффициентов, в то время как их сумма равна п. Например, пишет он, 1 + 4 + -f 6 -f 4 Н- 1 =16, поэтому вариационный ряд из 16 членов наиболее удобно разбить на 5 интервалов, а из 64 членов - соответственно на 7 интервалов и т. д. На этом «основании» автор предпо- . лагает, что таким путем устанавливается «оптимальный интервал группирования для расчета среднего арифметического, дисперсии, асимметрии и т. д.». Ко второй группе рекомендаций прежде всего относятся фундаментальные теоретические исследования по исполыздванию критерия согласия х . Как известно, этот критерий не может быть использован «без разбиения выборки на интервалы, в которых производится вычисление частных разностей между принятой моделью и сравниваемой выборкой. Однако применение критерия Для интервалов постоянной длины d, используемых обычно для построения гистограммы, неэффективно. Поэтому исходной посылкой всех работ по эффективности критерия является рассмотрение не интервалов с равной длиной, а интервалов с равной вероятностью в соответствии с принимаемой моделью. Следует заметить, что число т интервалов равной длины и число К интервалов равной вероятности различаются в большое число раз. Так, например, если исследуется выборка о. п - 600, а в качестве модели принимается нормальное распределение, то для того чтобы в крайние интервалы попадало приблизительно по 10 наблюдений, необходимо взять т = 7. В центральные столбцы гистограммы при этом попадет более чем по 100 наблюдений. Число же равновероятных интервалов о.щ - Ю при п = 600, естественно, К. - 60. В 1942 г. Г. Манном и А. Вальдом [581 было установлено, что при п оо оптимальное число К равновероятных интервалов при использовании критерия имеет порядок K~A.Y{nltf-\ (5-4) где t --- безра.шерная квантиль нормального распределения, соответствующая заданной вероятности Р = 1 - q, где q - принятый уровень .значимости. В 1950 г. К. Уильяме в работе [631 показал, что в формуле (5-4) коэффициент 4 можно заменить на 2 без какой-либо потери эффективности, так как оптимум очень пологий, и дал конкретную таблицу .значений К, которая приводится, например, в [4, с. 1631. Соотношение (5-4) варьируется различными авторами. Так, в работе [151 оно усложняется до К < b IV2 (п - im -f 4)f , (5-5) где 1 и 4 - некоторые задаваемые квантили, а b - принимается между 2 и 4. В работе [556] оно упрощается до К == 4 [0,75 (п - 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 [56] 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |