Попробуем теперь разобраться с задачками. В комментарии наведывались суровые статистики, у которых формулы математицкие. Я попробую объяснить логику рассуждений для тех, кто с формулами не дружит. Кое в чем и сама, наконец, разобралась.
Под катом таблички.
Задача 1

Задача 2

Задача 3

Задача 4

Поскольку я на переправе меняла коней, то некоторые по умолчанию считали количество фальш-позитивных 5%, пока я не уточнила, что фальш-позитивных как бы нет. Однако этот тупой пример позволяет распознать два важных параметра: чувствительность теста и специфичность теста.
Чувствительность - это какой % больных демонстрируют позитивный результат 95% (Задача 1-3) или 99,5%(Задача 4).
Специфичность - это какой % здоровых демонстрируют негативный результат (опять 95%, это 100%-5%), или 100%, как в последней задаче уточнено в процессе обсуждения. Мы можем, например, поиграться и предположить, что 3% здоровых почему-то продемонстрируют аномальный результат. Тогда финал будет выглядеть так:
За подготовку задачи и объяснение для чайников благодарность объявляется учебнику длядураков биологов от Harvey Motulsky "Intuitive Biostatistics", раздел 14 "Intrepreting Lab Tests: Introduction to Bayesian Thinking", страница 133.
Под катом таблички.
Задача 1

Задача 2

Задача 3

Задача 4

Поскольку я на переправе меняла коней, то некоторые по умолчанию считали количество фальш-позитивных 5%, пока я не уточнила, что фальш-позитивных как бы нет. Однако этот тупой пример позволяет распознать два важных параметра: чувствительность теста и специфичность теста.
Чувствительность - это какой % больных демонстрируют позитивный результат 95% (Задача 1-3) или 99,5%(Задача 4).
Специфичность - это какой % здоровых демонстрируют негативный результат (опять 95%, это 100%-5%), или 100%, как в последней задаче уточнено в процессе обсуждения. Мы можем, например, поиграться и предположить, что 3% здоровых почему-то продемонстрируют аномальный результат. Тогда финал будет выглядеть так:
За подготовку задачи и объяснение для чайников благодарность объявляется учебнику для
no subject
Date: 2012-05-04 10:20 am (UTC)Одно замечание: итоговое число у автора 95/50090*100=0,18966%, что по правилу округления равно 0,19%, а не 0,18%
2. Не согласен. Напоминаю, что по условию задачи «НАЛИЧИЕ ГЕНА НЕ ГАРАНТИРУЕТ развитие болезни».
А это значит, что С=500 и F=500, верно лишь при условии, что НАЛИЧИЕ ГЕНА ГАРАНТИРУЕТ развитие болезни, что не есть правда.
no subject
Date: 2012-05-04 10:29 am (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2012-05-04 10:24 am (UTC)4. Согласен. В моем решении у меня здесь есть ошибка
no subject
Date: 2012-05-04 10:28 am (UTC)Если группа риска 0.01% и надежность теста 95%, то получить позитивный результат можно в трех случаях:
Р1 = в группе риска И болен = 0.0001 * 0.95
Р2 = в группе риска И здоров (а тест лажанул) = 0.0001 * 0.05
Р3 = не в группе риска И здоров = 0.9999 * 0.05
Вероятность оказаться больным в таком раскладе Рб = Р1/(Р1+Р2+Р3) = 0,0018963968459926
no subject
Date: 2012-05-04 10:38 am (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2012-05-04 12:07 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-05-04 07:52 pm (UTC)На правах математика (ц) наиболее малозначимый фактор был отброшен, ваш же P2. Посему элементарно выводится 0.19 с погрешностью в ваши же P2 :) то есть пол десятитысячного процента.
no subject
Date: 2012-05-04 10:31 am (UTC)no subject
Date: 2012-05-04 11:45 am (UTC)2. Во второй задаче вы лошадей так и не поменяли. Условие задачи (вы явно оговорили, что «наличие гена еще не гарантирует развитие болезни») противоречит решению.
4. В самом условии ключевого фактора нет (он был упомянут только в комментариях, и после этого решение тривиально). К тому же формулировка противоречит предыдущим задачам, к которым невольно привязана. Следовало говорить не о «настолько аномально высоком уровне целлюлазы», а о каком-нибудь совершенно другом тесте, не на целлюлазу.
no subject
Date: 2012-05-04 11:49 am (UTC)no subject
Date: 2012-05-04 12:10 pm (UTC)Пока я писала четвертую задачу, то считала другими логичными прикидками и ценности специфичности не осознала.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-05-04 12:06 pm (UTC)no subject
Date: 2012-05-04 12:40 pm (UTC)(no subject)
From:no subject
Date: 2012-05-04 12:06 pm (UTC)no subject
Date: 2012-05-04 12:51 pm (UTC)(no subject)
From:no subject
Date: 2012-05-04 12:12 pm (UTC)no subject
Date: 2012-05-04 12:28 pm (UTC)Плюс — по условию наличие гена не приводило к болезни, о чём уже написали выше.
no subject
Date: 2012-05-04 12:57 pm (UTC)Допустим вы генетик в консультации и не знаете судьбу папы и мамы. Предполагается самы минимальный сценарий - один из родителей носитель аллели.
Уточняю, не "наличие гена не приводило к болезни", а "наличие гена еще не гарантирует развитие болезни".
(no subject)
From:no subject
Date: 2012-05-04 12:36 pm (UTC)Ну ладно, вполне списываемо на "трудности перевода" с биологического на математический.
Очень хорошая тема, и неплохая "игра ума". Спасибо. Пишите еще.
no subject
Date: 2012-05-04 12:42 pm (UTC)no subject
Date: 2012-05-04 12:49 pm (UTC)(no subject)
From:no subject
Date: 2012-05-04 12:56 pm (UTC)no subject
Date: 2012-05-04 01:01 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-05-04 05:46 pm (UTC)По-моему в задаче 3 не все гладко.
В пунктах 1-3 были расклады не просто на 10000, а на 10000 с симптомами(!). И это важно.
Если, например, взять 7000 случайных здоровых, то будет где-то 350 с повышенной целлюлазой.
Но если целенаправленно отобрать 7000 здоровых с симптомами, то пол. тестов уже не обязательно 350 (например, если эти симптомы часто вызываются той же повышенной целлюлазой, вне зависимости от причин повышения).
Независимость наличия симптомов и вероятности положительного теста не следует ни из чего, даже при известном диагнозе. А без этого пункты 4-7 не работают.
no subject
Date: 2012-05-04 07:06 pm (UTC)Вот свежее российское "безгмо":
Не фотожаба, у меня мать сегодня такое же купила - в холодильнике стоит
no subject
Date: 2012-05-05 05:19 am (UTC)Специфичность - это какой % здоровых демонстрируют негативный результат."
Помню, когда нам преподавали теорию распознавания образов (а понятия эти идут корнями оттуда), у нас эти штуки называли по другому. :)
"Ложно позитивный результат" называли "ложная тревога", а "ложно негативный результат" - "пропуск цели". :)
Но у нас была не совсем медицина. :)
no subject
Date: 2012-05-05 03:31 pm (UTC)Хотя я поняла логику, и нашла правильные ответы. И исходя из правильного ответа, (хотя бы на первый вопрос, пока нос у Буратино еще не размяк) - я понимаю, что деревянненький может спать спокойно: хотя разница в вероятности в 20 раз, все равно 0,2% это мало для беспокойства.
Однако 0,2% диабета 1 типа выявляется в среднем в популяции, у ЗДОРОВЫХ родителей. Никто не беспокоится по этому поводу. А вот вероятность заболеть при одном больном родителе - уже 5-10%. И ведь тоже - разница в 25-50 раз, не так чтоб совсем безнадежная ситуация. А сколько беды от этого! Сколько одиноких людей, сколько развалившихся семей! Да и сколько детей диабетиков! Ведь для каждой семьи вероятность-то тут определяется не цифрой 5%, а законом динозавра: или встречу, или не встречу...
no subject
Date: 2012-05-05 09:17 pm (UTC)no subject
Date: 2012-05-15 06:16 am (UTC)no subject
Date: 2012-05-25 11:07 pm (UTC)Вы говорили в комментариях:
1. Распространенность гена - 50%
2. Наличие гена не гарантирует болезнь
Это логично, иначе у нас не была бы заболеваемость 0,01%! Если бы наличие гена гарантировало болезнь, то у нас 50% болело бы. А так у нас болеют 0,02% из носителей гена.
И еще замечание. Если брат Буратины носитель гена и болеет, то это вовсе не означает, что у половины братьев-сестер ген есть, у другой - нет. Это очень грубое допущение. Согласно моим расчетам, если брат буратины - носитель гена и нам это точно известно, это значит, что сам буратина тоже носитель гена (хотя бы одного) с вероятностью 86% примерно. Такая высокая вероятность из-за того, что ген доминантный.
Ответ на задачу 2 - 0,35%, и не более 0,38%.