Перейти на главную Журналы

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 [57] 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98

что получается из (5-5) при = 4 и <i + 4 = 65. Если же в (5-4) в етответствии с [63] коэффициент 4 заменить на 2 и принять t = 1,65, что соответствует Р = 0,9 и д = 0,1, то оно получит вид

К = 1,9пР-\ (5-6)

Это соотношение представлено на рис. 5-3 кривой 4, близкой к кривой 3, соответствующей рекомендации (5-3) Хайнхольда и Гаеде.

Относительно этих рекомендации необходимо также заменить. что их «миграция» из книги в книгу приводит к тому, что забываются те условия, которые были положены первоначально в их основу. Так, Манн и Вальд четко указывали, что их соотношение (5-4) соответствует наибольшей эффективности критерия при использовании равновероятных интервалов. Тем не менее в [4] оно «для простоты» используется Бендатом и Пирсолом для построения гистограммы с интервалами постоянной длины. Так как /С > /и, то огибающая гистограммы в приводимом авторами примере [4, с. 165] «оптимальной» обработки данных при п = 200 имеет несглаженные провалы и всплески, т. е. принятое m 16 существенно больше оптимального.

К этой же группе рекомендаций относятся работы 1973- 1981 годов, основанные на использовании критерия близости в виде энтропийного коэффициента kg. Понятие энтропийного коэффициента как числовой характеристики формы распределения было предложено в работе [301. По гистограмме эта оценка вычисляется [52] как

А, = 10 (5-7)

где d - ширина столбца гистограммы; п - объем выборки; а - с. к. о.; т - число столбцов гистограммы; - число наблюдений в /-М столбце (/ = ГГ/и).

Исследования состояли в генерировании выборок разного объема из одной и той же генеральной совокупности, для чего с одного или близких объектов снимались, например, 40 серий по 25 или 100 наблюдений. Объединяя их между собой, получали представительную выборку с п = lOOO-i-4000 наблюдений. Такая выборка дает плавную гистограмму и при достаточно большом числе интервалов группирования. При этом особенно важно то, что изменение числа интервалов при такой выборке не меняет общего вида гистограммы и оценки энтропийного коэффициента k, найденные при разных значениях т, равных, например, 19, 23 и 27, достаточно близко совпадают между собой. Эта оценка и принималась за значение «генеральной совокупности». Затем определялись оценки для малых выборок при разных значе-




50 WO 200 500 1000 2000 Рис. 5-4

ниях т. При больших т в гистограммах появлялись провалы и оценка резко падала. При уменьшении т оценка возрастала. При некотором промежуточном т оценка равна найденной для данной «генеральной совокупности» и это значение т принималось за оптимальное.

Ре.эультаты первых из этих работ, выполненных коллективом болгарских авторов (ВМЭИ, Варна) под руководством 3. Тауша-нова, были опубликованы в 1973 г. [41], где излагался метод и приводился полученный результат в виде

m = 4 Ig п. (5-8)

что очень близко к рекомендации (5-2) Брукса и Каррузера. Эта работа была продолжена Е. Тоневой [42]. Исследование 72 разных вариантов выборок из одних и тех же экспериментальных статистик, где п варьировалось от 25 до 500 наблюдений, привело к соотношению

m = 5 Ig п. - 5 = 5 Ig (n/10).

(5-9)

С помощью описанного метода в работе [3] И. У. Алексеевой (Башкирия, Уфимский авиационный институт) на основе других экспериментальных статистик были найдены зависимости оптимального т для трех существенно различных распределений - близкого к трапецеидальному (х = 0,7, в = 2), близкого к нормальному (и = 0,53, 8 == 3,66) и близкого к распределению Лапласа (и = 0,4, е = 6,25). Выборки содержали по 2000- 2400 наблюдений и делились на серии с п от 100 до 1000-1200 наблюдений. Полученные зависимости оптимального m от п и 1/х были аппроксимирован аналогично выражениям (5-1), (5-2), (5-8), (5-9) веером прямых линий, в результате чего для оптимального т было получено соотношение

Это соотношение открывает совершенно новый подход к рассматриваемому вопросу. Все исследователи, начиная со Старджеса и кончая Тоневой, рассматривали т как функцию только объема выборки п и расходились меясду собой лишь в оценке вида этой функций. Никто из них не предполагал, что т зависит от вида закона распределения. Из формулы же (5-10) следует, что опти-



мальное число столбцов т существенно зависит от значений контрэксцесса и или эксцесса е. Полученные в работе [3] (с использованием критерия близости в виде энтропийного коэффициента) оптимальные значения числа интервалов т для законов распределения с оценками контрэксцесса к, равными 0,4, 0,53 и 0,7, и разными объемами выборки после усреднения по всем исследовавшимся распределениям нанесены на график рис. 5-4 и приведены ниже:

„...... 100 200 300 400 500 600 1000 1200 2000 2400

ч, равная.

0,7 ...4 5-6-8 - II - И 0,53 ... 6 7 9 ~ 12 - 16 - 17 - 0.4 . 9 9 16 - 18 - 18 - 27 -

Поскольку характер ломаных линий на рис. 5-4 более близок к штриховой кривой т = l,9tfi* (5-6), чем к вееру прямых линий, аппроксимируем его функцией вида т ~ А (в) г, где А (в) - некоторая функция от е, а а - показатель степени при объеме выборки п. В координатах Ig m = / (Ig п) приведенные данные близки к параллельным прямым с угловым коэффициентом а == = 0,4. Таким образом, найденный Манном и Вальдом показатель степени при п для равновероятных интервалов и использовании критерия близости в виде остается также равным 0,4 и для равновеликих интервалов и критерия близости в виде энтропийного коэффициента. Однако при равновероятных интервалах зависимость их числа от формы кривой распределения автоматически устранялась тем, что интервалы в этом случае располагались строго пропорционально изменению плотности модели. При равновеликих интервалах функция А (в) должна быть введена в явном виде. Полученный И. У. Алексеевой сдвиг кривых т = f {п) в зависимости от эксцесса в распределений может быть аппроксимирован выражениями вида А (в) = (в -f- 1,5)/6 или А (в) = = 8°-8/3, что приводит К соотношсниям для расчета оптимального значения

ml+n"-* (5-П)

Формула (5-П) дает несколько лучшее приближение к данным рис. 5-4, а формула (5-12) более удобна для использования в аналитических выражениях к наглядно показывает, что оптимальное число т интервалов существенно сильнее зависит от формы распределения (е* или к), чем от объема выборки (п).

Трудность практического использования соотношений (5-10). (5-11) или (5-12) состоит в том, что число интервалов группирования т нужно выбрать прежде, чем будут найдены оценки Хц,




0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 [57] 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98