Попробуем теперь разобраться с задачками. В комментарии наведывались суровые статистики, у которых формулы математицкие. Я попробую объяснить логику рассуждений для тех, кто с формулами не дружит. Кое в чем и сама, наконец, разобралась.
Под катом таблички.
Задача 1

Задача 2

Задача 3

Задача 4

Поскольку я на переправе меняла коней, то некоторые по умолчанию считали количество фальш-позитивных 5%, пока я не уточнила, что фальш-позитивных как бы нет. Однако этот тупой пример позволяет распознать два важных параметра: чувствительность теста и специфичность теста.
Чувствительность - это какой % больных демонстрируют позитивный результат 95% (Задача 1-3) или 99,5%(Задача 4).
Специфичность - это какой % здоровых демонстрируют негативный результат (опять 95%, это 100%-5%), или 100%, как в последней задаче уточнено в процессе обсуждения. Мы можем, например, поиграться и предположить, что 3% здоровых почему-то продемонстрируют аномальный результат. Тогда финал будет выглядеть так:
За подготовку задачи и объяснение для чайников благодарность объявляется учебнику длядураков биологов от Harvey Motulsky "Intuitive Biostatistics", раздел 14 "Intrepreting Lab Tests: Introduction to Bayesian Thinking", страница 133.
Под катом таблички.
Задача 1

Задача 2

Задача 3

Задача 4

Поскольку я на переправе меняла коней, то некоторые по умолчанию считали количество фальш-позитивных 5%, пока я не уточнила, что фальш-позитивных как бы нет. Однако этот тупой пример позволяет распознать два важных параметра: чувствительность теста и специфичность теста.
Чувствительность - это какой % больных демонстрируют позитивный результат 95% (Задача 1-3) или 99,5%(Задача 4).
Специфичность - это какой % здоровых демонстрируют негативный результат (опять 95%, это 100%-5%), или 100%, как в последней задаче уточнено в процессе обсуждения. Мы можем, например, поиграться и предположить, что 3% здоровых почему-то продемонстрируют аномальный результат. Тогда финал будет выглядеть так:
За подготовку задачи и объяснение для чайников благодарность объявляется учебнику для
no subject
Date: 2012-05-04 10:20 am (UTC)Одно замечание: итоговое число у автора 95/50090*100=0,18966%, что по правилу округления равно 0,19%, а не 0,18%
2. Не согласен. Напоминаю, что по условию задачи «НАЛИЧИЕ ГЕНА НЕ ГАРАНТИРУЕТ развитие болезни».
А это значит, что С=500 и F=500, верно лишь при условии, что НАЛИЧИЕ ГЕНА ГАРАНТИРУЕТ развитие болезни, что не есть правда.
no subject
Date: 2012-05-04 10:24 am (UTC)4. Согласен. В моем решении у меня здесь есть ошибка
no subject
Date: 2012-05-04 10:28 am (UTC)Если группа риска 0.01% и надежность теста 95%, то получить позитивный результат можно в трех случаях:
Р1 = в группе риска И болен = 0.0001 * 0.95
Р2 = в группе риска И здоров (а тест лажанул) = 0.0001 * 0.05
Р3 = не в группе риска И здоров = 0.9999 * 0.05
Вероятность оказаться больным в таком раскладе Рб = Р1/(Р1+Р2+Р3) = 0,0018963968459926
no subject
Date: 2012-05-04 10:29 am (UTC)no subject
Date: 2012-05-04 10:31 am (UTC)no subject
Date: 2012-05-04 10:38 am (UTC)no subject
Date: 2012-05-04 10:41 am (UTC)Просто во второй задаче, по условию, ген создает лишь предрасположенность к болезни. Т.е не всякий носитель гена может заболеть. 500/500 больной/здоровый уже не получится. Ведь люди носители гена, но еще не заболевшие - тоже здоровые.
А 95% вероятность активности фермента проявляется лишь у заболевших, у здоровых 5%.
Если наличие гена гарантирует развитие болезни, как в задаче 1 - то никаких вопросов у меня нету.
no subject
Date: 2012-05-04 11:45 am (UTC)2. Во второй задаче вы лошадей так и не поменяли. Условие задачи (вы явно оговорили, что «наличие гена еще не гарантирует развитие болезни») противоречит решению.
4. В самом условии ключевого фактора нет (он был упомянут только в комментариях, и после этого решение тривиально). К тому же формулировка противоречит предыдущим задачам, к которым невольно привязана. Следовало говорить не о «настолько аномально высоком уровне целлюлазы», а о каком-нибудь совершенно другом тесте, не на целлюлазу.
no subject
Date: 2012-05-04 11:49 am (UTC)no subject
Date: 2012-05-04 12:06 pm (UTC)no subject
Date: 2012-05-04 12:06 pm (UTC)no subject
Date: 2012-05-04 12:07 pm (UTC)no subject
Date: 2012-05-04 12:10 pm (UTC)Пока я писала четвертую задачу, то считала другими логичными прикидками и ценности специфичности не осознала.
no subject
Date: 2012-05-04 12:12 pm (UTC)no subject
Date: 2012-05-04 12:16 pm (UTC)no subject
Date: 2012-05-04 12:17 pm (UTC)no subject
Date: 2012-05-04 12:18 pm (UTC)no subject
Date: 2012-05-04 12:22 pm (UTC)no subject
Date: 2012-05-04 12:28 pm (UTC)Плюс — по условию наличие гена не приводило к болезни, о чём уже написали выше.
no subject
Date: 2012-05-04 12:36 pm (UTC)Ну ладно, вполне списываемо на "трудности перевода" с биологического на математический.
Очень хорошая тема, и неплохая "игра ума". Спасибо. Пишите еще.
no subject
Date: 2012-05-04 12:39 pm (UTC)Зачем что-то предлагать, если потенциальному предлагаемому это неинтересно?
no subject
Date: 2012-05-04 12:40 pm (UTC)no subject
Date: 2012-05-04 12:41 pm (UTC)Третья задача - увы и ах - решена неправильно.Она только внешне похожа на первую, а в сути она абсолютно другая. Интуитивное мнение Совы - совершенно не то же самое, что надежная статистика по доле группы риска в популяции. Кроме того, если Сова имела в виду "30 шансов из 100, что он болен", то надежность этого мнения крайне невысока. В силу высокой дисперсии мнения. Во всяком случае, надежность этого мнения будет заметно ниже 30%.
no subject
Date: 2012-05-04 12:42 pm (UTC)no subject
Date: 2012-05-04 12:42 pm (UTC)