ТИРОНЕТ – все о щитовидной железе Для специалистов Журнал Тиронет Архив журнала 2003 год № 1

Три "Почему ..." и пять принципов описания статистики в биомедицинских публикациях

В. Леонов



ОПИСАНИЕ ИСПОЛЬЗОВАННЫХ МЕТОДОВ СТАТИСТИКИ
(ОБЩАЯ ЧАСТЬ)

Следует различать собственно описание использованных методов от описания результатов их применения. Обычно краткое описание использованных методов статистики состоит из перечисления этих методов в традиционном разделе (главе) "Материалы и методы". Здесь же приводятся данные о размере (объеме)  выборки, а также соответствующих групп и подгрупп, название статистических методов и критериев и значение критического уровня значимости.  Уместно дать и обозначение наиболее часто встречающихся значений параметров, как выборочных, так и генеральных. Поскольку до сих пор биомедицинская отрасль не имеет каких-либо стандартов в обозначении таких параметров, в отличие от физико-математических и технических отраслей, где такие стандарты де-юре и де-факто имеются, следует привести названия и обозначения таких параметров. В частности, в большинстве отраслей знания принято генеральные параметры в популяции обозначать буквами греческого алфавита, тогда как выборочные параметры соответствующими буквами латинского алфавита. 

Приводим ниже пример такого описания, отражающего личную точку зрения автора, и никоим образом не претендующего на "истину в последней инстанции". 
"В работе анализировалась выборка объемом 360 наблюдений. Каждое наблюдение содержало 56 переменных, из которых 26 признаков являлись дискретными, качественными, и 30 признаков  — непрерывными, количественными. Доля пропущенных значений составила  менее 1% . Использовались следующие методы статистического анализа: проверка нормальности распределения количественных признаков с использованием критерия Колмогорова-Смирнова с поправкой Лиллиефорса и критерия Шапиро-Уилка; проверка равенства генеральных дисперсий с помощью критериев Фишера и Кохрэна; анализ таблиц сопряженности; ранговый корреляционный анализ; непараметрический дисперсионный анализ Краскела-Уоллиса и Фридмана; лог-линейный  анализ;  логистическая регрессия для мультиномиальных откликов. Выборочные параметры, приводимые далее в таблицах, имеют следующие обозначения:  М — среднее, s — стандартное (среднеквадратичное) отклонение, m — ошибка среднего, n — объем анализируемой подгруппы, р — достигнутый уровень значимости. Критическое значение уровня значимости принималось равным 5% . Анализ данных производился с помощью пакетов программ  SAS 8 и SPSS 11. " 

Обратите внимание, что в приведенном выше примере нет перечисления всех остальных параметров и показателей, которые могут быть получены в отдельных конкретных видах анализа. Это вызвано тем, что более уместно о них сказать именно в контексте обсуждения результатов этого анализа. Например, приводя результаты рангового корреляционного анализа можно сказать: "Наблюдалась положительная корреляционная связь между признаками …   . Коэффициент корреляции Спирмена rs=0,79 (р=0,002)."

При описании качественных признаков следует указать их природу — ранговые, порядковые это признаки, или же номинальные, классификационные. Привести значения каждой градации, уровня такого признака. Очевидно, что если в массиве данных много признаков, то такое описание может занять довольно много места.  Весьма желательно показать соотношения отдельных подгрупп наблюдений по группирующим признакам, например по полу. Обычно это отражают в таблицах, давая значения доли в процентах для наблюдений по каждой подгруппе.

При описании количественных признаков для характеристики исследуемых популяций приводят выборочные оценки соответствующих генеральных параметров, в частности мер положения (центральной тенденции), мер рассеяния и  мер формы распределения.  Чаще всего это выборочные средние М, медиана Ме, мода Мо, стандартное отклонение s, ошибка среднего m,  и  межквартильный (интерквартильный) размах. Говоря о законе распределения, и в частности о результатах проверки гипотезы о нормальности распределения, можно пойти двумя путями. В первом случае ограничиться только тем, что привести значения использованных критериев проверки нормальности и значений "р=..." с соответствующим комментарием. Во втором же случае помимо этой информации привести еще и графики. Это может быть либо гистограмма с линией ожидаемой нормальной функции плотности или функции распределения, либо же так называемый график распределения на "вероятностной бумаге". 

Автор рекомендует остановиться на последнем графике, поскольку помимо соответствия (несоответствия) нормальному распределению здесь можно наблюдать также возможные группировки наблюдений, аномальные выбросы, наличие симметрии и другие нюансы, заслуживающие дальнейшего обсуждения. Предположим, что по результатам проверки нормальности нулевая гипотеза была отвергнута. График, о котором идет речь выше, позволяет предположить, что мы имеем дело с лог-нормальным распределением. После проведения соответствующего преобразования можно вновь привести аналогичный график как свидетельство правильности такого предположения.

Нередко автор публикации стоит перед выбором: использовать ли для описания выборочных параметров обозначение (M±m) или же  (M±s), где m — ошибка среднего, s — средне-квадратичное отклонение. В некоторых рекомендациях отдается предпочтение первому варианту, в других - второму. Учитывая, что "m" и "s" связаны между собой соотношением m=s/sqrt(n), (sqrt(n) — корень квадратный из объема выборки "n"), спор об этом представляется достаточно схоластическим. Выбор того или иного варианта должен в большей степени определяться контекстом. Например, если речь идет о сравнении групповых средних, то логичнее использовать первый вариант. Если же просто приводятся выборочные характеристики отдельных групп, то разумнее использовать второй вариант. Важно, чтобы как для первого, так и для второго случая всегда приводилось значение объема выборки "n". Тогда зная, например, "m" всегда можно вычислить и "s", и наоборот.

В последнее время часть авторов использует доверительные интервалы для описания точности оценок, например среднего. Такие оценки обычно представляют собой двусторонние 95%-ные интервалы, задаваемые выражением M±1,96m. Однако авторы при этом забывают, что, во-первых, для задания доверительного интервала необходимо знание закона распределения, что далеко не всегда возможно установить.  А большинство авторов в публикациях даже не упоминают о том, что такая задача ставилась и решалась. Далее, для ряда распределений искомый интервал не является симметричным. Т.е. вместо выражения типа (M±1,96m) необходимо использовать выражения вида (M+k*m) и (M-d*m), где k не равно d. 

В ряде случае доверительный интервал представляет самостоятельный интерес, в частности, при анализе частотных соотношений. В этом случае достаточно информативен такой признак, как ЧБНЛ — "Число Больных, которых Необходимо Лечить определенным методом в течение определенного времени, чтобы достичь определенного эффекта или предотвратить неблагоприятный исход". Данный показатель находится как обратная величина для одной из границ доверительного интервала для доли, пропорции.