ТИРОНЕТ – все о щитовидной железе Для специалистов Журнал Тиронет Архив журнала 2003 год № 1

Три "Почему ..." и пять принципов описания статистики в биомедицинских публикациях

В. Леонов



"А ВОЗ И НЫНЕ ТАМ?"

Следуя примеру зарубежных журналов, в частности таких как JAMA и BMJ, аналогичные пункты требований стали вводить и отечественные журналы. К примеру, еще в 1995 г. журнал "Кардиология" прямо говорил о необходимости статистической  цензуры, что за рубежом уже давно стало нормой. Так, в вып. 6 за 1995 г. (стр. 93) в "Правилах подготовки рукописей ...", редакция написала следующее: "Все статьи, принятые к публикации, при необходимости будут проверяться на адекватность применения статистических методов и интерпретации данных". В это же время автор данной статьи направил в "Кардиологию" статью с анализом публикаций этого журнала за несколько лет, где приводил наиболее типичные статистические ошибки и заблуждения. И хотя статья не была опубликована, а сама редакция даже не ответила автору этих строк, тем не менее, эта симптоматичная фраза в "Правилах ..."  появилась. Однако, несмотря на то, что прошло уже 7 лет с того момента, как было продекларировано такое требование, уровень статистического анализа в статьях этого журнала остался прежним. В общем, все получается как в известной поговорке: "Куда конь с копытом, туда и рак с клешней"... 

Объективности ради, следует сказать, что таким же осталось положение и во многих других журналах. Тем не менее, отдельные позитивные сдвиги в решении этой проблемы все же есть. Ведутся переговоры по введению статистического рецензирования в издательстве Медиа-Сфера, реально уже введено такое рецензирование в "Сибирском медицинском журнале",  (главный редактор Р.С. Карпов, академик РАМН, председатель ТНЦ СО РАМН). С полной версией новой редакции Единых требований к рукописям, представляемым в "Сибирский Медицинский Журнал" можно познакомиться на сайте Межрегионального Сибирского медицинского Фонд им. Д.Д. Яблокова. Для иллюстрации того, что такое рецензирование действительно необходимо, приведем несколько цитат из 4-х таких рецензий, направленных авторам рукописей, присланных в редакцию "Сибирского Медицинского Журнала". 

1. В рукописи сообщается: "... (коэффициент корреляции Пирсона r=0,71, достигнутый уровень значимости р< 10-3)". Однако нигде не сообщается, как проверялись (и проверялись ли вообще!) условия применимости данного вида корреляции. Далее, в этом фрагменте, а также в тексте статьи используются выражения р< 10-3  . Необходимо в таких случаях приводить конкретные значения достигнутого уровня значимости, например, р=0,0001..

В рукописи сообщается: "Поведение линий регрессии полностью согласуется с результатами и выводами корреляционного анализа". Это утверждение довольно спорно, поскольку приведены результаты линейного корреляционного анализа, тогда как графики, в ряде случаев, явно указывают на наличие нелинейной регрессии. Отсюда возникает несколько вопросов: почему не была проверена правомочность использования именно линейной аппроксимации зависимости, вместо нелинейной; почему использовалась корреляция Пирсона в тех случаях, где графическое изображение показывает сомнительность применения данной корреляции?

2. В разделе "Материал и методы" и далее в тексте рукописи приводятся выражения вида "5,6±1,4". Нигде в рукописи не сказано, какие именно величины авторы соединяют знаком  ±  . В этом же разделе сообщается об использовании критерия Стьюдента, но ничего не говорится о методах  проверки ограничений использования данного метода.  Кроме того, авторы использовали критерий Стьюдента для показателей, оцениваемых в баллах, что является недопустимым. Нет уточнения, какой именно корреляционный анализ был выполнен авторами, как нет и самого обсуждения результатов корреляционного анализа. В тексте рукописи используются некорректные выражения "достоверные различия (р < 0,05)". Следует использовать выражение "статистически значимые различия", а также вместо выражения р < 0,05 приводить фактические значения достигнутого уровня значимости, например, p=0,002. В описании к табл. 4 (над самой таблицей) пропущено число пациентов в выражении "Группа ИМ 2 (n=  ), М±м".

Весьма важным моментом, о котором авторы вообще ничего не говорят, является проблема однородности исходного состояния сравниваемых подгрупп. Вполне возможно, что уже до начала тренировок разной интенсивности, данные группы отличались по некоторым, а возможно и по всем, контролируемым в динамике показателям. В этом случае отдаленный результат наблюдений может быть следствием не тренировок разной интенсивности, а значимым различием контролируемых показателей в исходном состоянии сравниваемых групп. Отсутствие такой проверки однородности начального состояния резко снижает надежность формулируемых авторами выводов. 

Учитывая большую важность исследуемых авторами аспектов постинфарктной реабилитации пациентов, рекомендую использовать более глубокие методы статистического анализа, например такие, как непараметрический дисперсионный анализ, построение дихотомических решающих правил и логистическую регрессию. Это значительно повысит результативность и надежность полученных результатов.

3. В разделе "Материал и методы" сообщается, что "Данные были получены при использовании непараметрических методов (Kruskall-Wallis Anova, Median test) и анализа таблиц сопряженности". Однако ничего не сказано о том, чем диктовался выбор именно этих методов анализа и какие гипотезы проверялись этими методами. Вопрос об этом тем более уместен, что в следующем предложении говорится: "При сравнении величин двух групп с нормальным распределением применялся Shapiro Wilk's test".  Т.е. часть количественных признаков, видимо, подчинялась нормальному распределению. Однако в такой формулировке данное утверждение лишено всяческого смысла, поскольку указанный статистический критерий Shapiro Wilk's не применяется "При сравнении величин двух групп с нормальным распределением". Данный критерий проверяет совершенно иные статистические гипотезы. 

Непонятен и смысл следующего утверждения: "Во всех процедурах статистического анализа уровень значимости "р" принимался менее 0,05". Если речь идет о критическом уровне значимости для данного исследования, то следует использовать формулировку, приведенную в действующих "Единых требованиях к рукописям, представляемым в "Сибирский Медицинский Журнал". В тексте рукописи используются некорректные выражения вида "Эта подгруппа достоверно отличалась ...", "Генотипы DD и ID достоверно чаще регистрировались...", "достоверная взаимосвязь...".  Следует использовать обороты "статистически значимо" или "статистически не значимо".

4. В разделе "МАТЕРИАЛ И МЕТОДЫ ИССЛЕДОВАНИЯ" говорится: "Для каждого показателя оценивали значимость различий функций распределения на группах выживших и умерших больных".  Однако ничего не сказано о том, зачем, с какой целью это делалось, и с помощью каких конкретно методов (критериев) производилась эта оценка. Далее, в этом же разделе говорится: "Для количественных показателей, таких как уровень холестерина, стаж стенокардии, частота сердечных сокращений при велоэргомерии и т.д. оценивали достоверность различий средних". Авторы используют некорректный оборот "достоверность различий средних". Следует использовать корректное выражение "статистически значимое различие средних". Ничего не сказано и о том, для чего, с какой целью производилась эта оценка, а также какими конкретно методами (критериями).

Далее авторы сообщают в этом же разделе о том, что по результатам использования дисперсионного и факторного анализов "Все эти показатели были перекодированы, исходя из максимального различия распределений на сравниваемых группах". Данное утверждение совершенно непонятно. Неясно, с какой целью и как производилось это "перекодирование".  В этом же разделе сообщается: "Алгоритм разработки прогноза был одинаков во всех случаях, а различные варианты прогноза различались только составом используемой информации [10]." Из данного утверждения читателю статьи будет неясно, каков же был этот алгоритм. Отсылка к зарубежному источнику [10] мало что даст читателю, поскольку, во-первых, в данном источнике описано довольно много алгоритмов, а во-вторых, большинству читателей данный источник недоступен. Необходимо достаточно ясно описать данный алгоритм, с тем, чтобы читателю было понятно, как можно такой алгоритм воспроизвести (название статистического пакета и процедуры, ссылка на более подробное описание алгоритма в документации статистического пакета и т.д.). В таком же виде использованный авторами алгоритм остается для читателей совершенно неизвестным.

В разделе "РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ" говорится: "При проведении многофакторного дисперсионного анализа, из общеклинических показателей наиболее значимыми были признаны следующие показатели: стаж артериальной гипертензии (АГ), ИМ в анамнезе, ФК, наличие АГ у ближайших родственников". Из данного описания неясно, какие именно факторы, и их комбинации, использовались в этом случае. В этом фрагменте текста приведено описание ошибочного, некорректного применения дисперсионного анализа для качественных признаков. Далее: "Из инструментального обследования значимыми показателями оказались все гемодинамические характеристики ВЭМ, а также показатели Эхо-КГ: КСР, КДР и ФВ (табл. 1)". Неясно, какие признаки выступали в данном случае в роли факторов. 

В таблице 1. наблюдается терминологическая путаница: термин "фактор" используется в двух несовместимых смыслах, как фактор в дисперсионном анализе, и фактор — как зависимый, количественный показатель. Такая путаница вводит в заблуждение. В таблице 1 приводятся выражения вида "р  < 0,05" и "р  < 0,01". Согласно действующим требованиям необходимо приводить фактические значения достигнутого уровня значимости. В примечание к табл. 1 говорится: "Примечание: в таблице отражены только "фиксированные" значения для данной популяции". Неясно, что это за "фиксированные значения". В этом же Примечании допущена опечатка в предпоследнем слове.

В разделе  "РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ" говорится: "Для того, чтобы понять структуру взаимосвязи параметров … был проведен факторный анализ". Однако далее ничего не сказано о том, как проверялись (и проверялись ли вообще!) существующие для данного метода предпосылки и ограничения. В описании результатов факторного анализа делается ссылка на рис.1. Однако к данному рисунку отсутствуют описания осей. Не совсем ясен смысл и рис.1. Аналогичные замечания и по рис. 2-3.

О результатах логистической регрессии. Как уже говорилось выше, ничего не сказано об алгоритме оценки показателей этого уравнения. Нет оценок уровней значимости, как отдельных коэффициентов уравнения, так и всего уравнения в целом. Все общепринятые в мировой печати параметры оценок имеются в цитируемой авторами книге [10], куда и рекомендую обратиться по данному вопросу.

При оценке диагностической ценности авторы, кроме принятых в литературе терминов "специфичность и чувствительность", используют термин "значимость", что также может привести к путанице, поскольку в статье используется и термин "значимость" и в статистическом смысле. Современная терминология доказательной медицины использует иные термины для этих целей, например термин "прогностичность ..." (см. соответствующую литературу по доказательной медицине).

И если раньше многие из перечисленных выше замечаний рисковали стать после своей публикации экспонатами "К… ", то после соответствующей авторской доработки, эти фрагменты публикации только усилят доверие читателей к результатам исследования.

Продолжим критический анализ имеющихся рекомендаций. "По возможности, подвергайте полученные данные количественной оценке и представляйте их с соответствующими показателями ошибок измерения и неопределенности (такими как доверительные интервалы)."  Как видим, здесь решение о необходимости количественной оценки остается за автором. Однако и в этом случае непонятно, о каких конкретно "количественных оценках" и "соответствующих показателях" идет речь, поскольку таких оценок и показателей может быть достаточно много. Такой же критически настроенный читатель может резонно возразить, что же, надо перечислять все эти оценки? Но ведь на каждый случай все нельзя предвидеть. Конечно, для каждой рукописи нельзя предусмотреть все возможные варианты и случаи. Да этого и не требуется. Более разумно дать некоторый рекомендуемый перечень таких оценок, а также сформулировать принципы построения такого описания. Кроме того, если все рукописи, содержащие статистические оценки, будут рецензироваться специалистом по анализу данных, то все оставшиеся проблемы будут разрешаться в процессе общения автора и рецензента.

"Не следует полагаться исключительно на статистическую проверку гипотез, например, на использование значений р, которые не отражают всей полноты информации."  Такое пожелание было бы вполне уместно, если бы во всех журналах авторы полагались бы в своих выводах исключительно только на уровень значимости "р". Но ведь этого нет, скорее наоборот.