Я предполагаю, что меня читают биологи и информатики. Поскольку я сейчас столкнулась с феерическими расчетами, от которых у меня волосы на загривке вздыбились, считаю, что будет неплохо, если я расскажу причастным где впредь быть предельно внимательным. Я, к сожалению, не могу дотянуться до того парня, который это посчитал, чтобы надавать ленейкой по рукам. Но должна сказать, что это сервис, претендующий на серьезный.
Больше чем месяц назад я получила результаты и, помнится, даже всхипнула от ужаса. Дело было вот как.
Перед биологом стоит задача - сравнить экспрессию генов в нескольких тканях. Для этого надо выделить РНК и каким-то из методов определить, с каких генов эта РНК считалась и в каком количестве. Методов есть несколько. От нозерна до микрочипов. Самый модный - это секвенирование 454. О нем и пойдет речь.
Я не буду вдаваться в подробности, что за ткани я анализирую, скажу только, что этой ткани столько, что невооруженным глазом не видно, нарубили лазером под микроскопом. Выделили РНК в количествах на пределе воображения и отправили на прочитку (секвенирование). Это приблизительно так, как сейчас читают геномы, только не ДНК, а РНК. Причем прочитка - это полноценный сервис, который включает все. На выходе, как я уже упоминала 300 гигов информации: сырые сиквенсы, сбивка в контиги, скаффолды и унигены, бласты, функциональная аннотация по геномной антологии, метаболитических путях, визуализация, статистическая обработка и дифференциальный анализ. Все растыкано по 2000 тыщам файлов. Задача биолога теперь все ОСМЫСЛИТЬ и интерпретировать и сделать выводы, как же отличается работа генов в разных тканях и почему.
Я сузила сначала задачу и из вороха файлов нашла исходник в экселе: сравнение генной экспрессии в двух (из 48ми) тканях. Теперь внимание и пристегнитесь. Результаты сравнения представлены в виде log2 значения соотношения экспрессии генов в ткани 1 vs. 2. Просто настолько, что можно понять и идиоту, верно? Значения колеблются от -15 до плюс 15 (это уже log2). Огого, сечете разницу в экспрессии? Всех генов несколько десятков тыщ.
В этом месте меня подвело банальное любопытство. Что ж это за ген такой, у которого разница в работе в двух близлежащих тканях 214? Роюсь в ворохе файлов и нахожу сырые результаты. И тут, друзья, у меня глаза на переносице и сбежались. Потому что я знаю, что это за сырые значения. А это всего навсего количественный подчет ШТУК КУСКОВ РНК, которые принадлежат одному гену. Держитесь теперь крепче, пример из жизни.
Ген Х. Логарифмированное значение соотношения экспрессии в тканях 1 vs. 2 равно 14,72. Сырые данные в студию. В ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 27 кусков. Формула расчета log2(27:0). Что, съели касатики?!!! Говорите на ноль нельзя делить? Ну нельзя так нельзя (хотя в результатах стоит ноль). Я прикинула, как могли бы рассуждать те, кто уныло смотрит на ноль. Ноль надо заменить на число, отличное от нуля. Я начала тупо подставлять и проверять логарифмом, как у них 14,72 получилось. Оказалось, что 0 приравняли до 0,001. log2(27:0,001)=14,72
Если вы еще не ржете, посчитайте, какое значение log2 будет, если в ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 2 (два) куска. То есть вы догадываетесь, куда можно засунуть эти 300 гигов и ограничиться одной таблицей в экселе, да?
Проблема в том, что редкий биолог интересуется сырыми данными, если сервис поставил уже готовое соотношение в красочных схемах и диаграммах. И редкий информатик интересуется особенностями того, что ему поручено посчитать. Для него это голые абстрактные числа, а для меня это штуки кусков РНК. Особенно печально, если биолог мало знает о проблемах и недостатках того метода, которым хочет что-то проверить. После таких ляпов у меня возникли подозрения к алгоритмам сбивки в контиги (которые я встречала в других случаях), к проблемам аннотации (с которой долбилась годами). Эта же проблема также касается и анализов всяких там аффиметриксов и прочих биочипов.
Вырасту большой и научусь программированию сама.
Больше чем месяц назад я получила результаты и, помнится, даже всхипнула от ужаса. Дело было вот как.
Перед биологом стоит задача - сравнить экспрессию генов в нескольких тканях. Для этого надо выделить РНК и каким-то из методов определить, с каких генов эта РНК считалась и в каком количестве. Методов есть несколько. От нозерна до микрочипов. Самый модный - это секвенирование 454. О нем и пойдет речь.
Я не буду вдаваться в подробности, что за ткани я анализирую, скажу только, что этой ткани столько, что невооруженным глазом не видно, нарубили лазером под микроскопом. Выделили РНК в количествах на пределе воображения и отправили на прочитку (секвенирование). Это приблизительно так, как сейчас читают геномы, только не ДНК, а РНК. Причем прочитка - это полноценный сервис, который включает все. На выходе, как я уже упоминала 300 гигов информации: сырые сиквенсы, сбивка в контиги, скаффолды и унигены, бласты, функциональная аннотация по геномной антологии, метаболитических путях, визуализация, статистическая обработка и дифференциальный анализ. Все растыкано по 2000 тыщам файлов. Задача биолога теперь все ОСМЫСЛИТЬ и интерпретировать и сделать выводы, как же отличается работа генов в разных тканях и почему.
Я сузила сначала задачу и из вороха файлов нашла исходник в экселе: сравнение генной экспрессии в двух (из 48ми) тканях. Теперь внимание и пристегнитесь. Результаты сравнения представлены в виде log2 значения соотношения экспрессии генов в ткани 1 vs. 2. Просто настолько, что можно понять и идиоту, верно? Значения колеблются от -15 до плюс 15 (это уже log2). Огого, сечете разницу в экспрессии? Всех генов несколько десятков тыщ.
В этом месте меня подвело банальное любопытство. Что ж это за ген такой, у которого разница в работе в двух близлежащих тканях 214? Роюсь в ворохе файлов и нахожу сырые результаты. И тут, друзья, у меня глаза на переносице и сбежались. Потому что я знаю, что это за сырые значения. А это всего навсего количественный подчет ШТУК КУСКОВ РНК, которые принадлежат одному гену. Держитесь теперь крепче, пример из жизни.
Ген Х. Логарифмированное значение соотношения экспрессии в тканях 1 vs. 2 равно 14,72. Сырые данные в студию. В ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 27 кусков. Формула расчета log2(27:0). Что, съели касатики?!!! Говорите на ноль нельзя делить? Ну нельзя так нельзя (хотя в результатах стоит ноль). Я прикинула, как могли бы рассуждать те, кто уныло смотрит на ноль. Ноль надо заменить на число, отличное от нуля. Я начала тупо подставлять и проверять логарифмом, как у них 14,72 получилось. Оказалось, что 0 приравняли до 0,001. log2(27:0,001)=14,72
Если вы еще не ржете, посчитайте, какое значение log2 будет, если в ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 2 (два) куска. То есть вы догадываетесь, куда можно засунуть эти 300 гигов и ограничиться одной таблицей в экселе, да?
Проблема в том, что редкий биолог интересуется сырыми данными, если сервис поставил уже готовое соотношение в красочных схемах и диаграммах. И редкий информатик интересуется особенностями того, что ему поручено посчитать. Для него это голые абстрактные числа, а для меня это штуки кусков РНК. Особенно печально, если биолог мало знает о проблемах и недостатках того метода, которым хочет что-то проверить. После таких ляпов у меня возникли подозрения к алгоритмам сбивки в контиги (которые я встречала в других случаях), к проблемам аннотации (с которой долбилась годами). Эта же проблема также касается и анализов всяких там аффиметриксов и прочих биочипов.
no subject
Date: 2011-04-21 07:21 am (UTC)no subject
Date: 2011-04-21 07:27 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-04-21 07:34 am (UTC)"Вот так и рождаются нездоровые сенсации", как сказал персонаж братьев Стругацких, выгоняя на мороз наколдованного гигантского комара...
no subject
Date: 2011-04-21 07:36 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:Рискну предположить, что вы не покупате крольчатины
From:Re: Рискну предположить, что вы не покупате крольчатины
From:Re: Рискну предположить, что вы не покупате крольчатины
From:Yep, 12 <> 13
From:Re: Рискну предположить, что вы не покупате крольчатины
From:Re: Рискну предположить, что вы не покупате крольчатины
From:Re: Рискну предположить, что вы не покупате крольчатины
From:no subject
Date: 2011-04-21 07:38 am (UTC)no subject
Date: 2011-04-21 07:41 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-04-21 07:42 am (UTC)no subject
Date: 2011-04-21 07:59 am (UTC)А вот где проходит трешхолд абсолютных значений, p-value и чувствительности метода - я сказать не могу, пробую сама разобраться. Наверное, это можно сказать только глядя весь массив данных и зная особенности технических ошибок.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:Re: UPDATE II
From:(no subject)
From:вроде бы все остальное правильно
From:она в их формуле не фигурирует
From:Re: она в их формуле не фигурирует
From:Re: она в их формуле не фигурирует
From:Re: она в их формуле не фигурирует
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-04-21 07:54 am (UTC)no subject
Date: 2011-04-21 07:59 am (UTC)no subject
Date: 2011-04-21 08:58 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-04-21 08:31 am (UTC)Посмотрите в описании пакета, это наверняка где-то оговаривается. Другое дело, что реальные пацаны описаний не читают.
no subject
Date: 2011-04-21 08:51 am (UTC)Вообще это ж вроде начала статистики. Все эти бросания монеток, разноцветные шары... Должна быть какая-то разумная метода оценки достоверности различий для случаев целочисленных измерений, где ноль значащее число, без приписок. Просто сервисцентр использует какой-то не тот критерий.
(no subject)
From:(no subject)
From:no subject
Date: 2011-04-21 08:57 am (UTC)А вообще да, очень малые значения в одной из групп - это всегда источник головной боли при расчете относительных величин и нормализации, что поделать.
no subject
Date: 2011-04-21 09:20 am (UTC)(no subject)
From:no subject
Date: 2011-04-21 08:59 am (UTC)И попросить переделать как вам надо :)))
Вот и всё :)))
Просто не успеешь всё выучить...
no subject
Date: 2011-04-21 09:40 am (UTC)(no subject)
From:no subject
Date: 2011-04-21 09:32 am (UTC)и как выглядела рецензия? цензурных слов хватило?
no subject
Date: 2011-04-21 09:38 am (UTC)ехидненько так
Date: 2011-04-21 09:47 am (UTC)Re: ехидненько так
Date: 2011-04-21 09:51 am (UTC)Re: ехидненько так
From:Re: ехидненько так
From:Re: ехидненько так
From:no subject
Date: 2011-04-21 09:56 am (UTC)0 генів трактується 1 ген, 1 ген - як два гени. І таким чином: log2(10/0) ~ log2(11/1). Це можна робити як для всіх пар, а можна тільки для тих, де є 0.
Це трошки спотворить результат в загальному, але значно полегшить роботу з нулями.
no subject
Date: 2011-04-21 10:15 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-04-21 09:56 am (UTC)no subject
Date: 2011-04-21 10:16 am (UTC)Разница прочиток (reads, как это будет по-русски?!) между 0 и 1 Вас, конечно, не интересует, а вот 0 и 27 уже, возможно, указывает на тканевую специфичность (зависит от покрытия (coverage), трудно сказать 27 это много или мало, если не знать как обстоят дела в среднем по госпиталю). Так что совсем выкидывать эти результаты я бы не стала. Можно установить границу на минимальную экспрессию в одной из тканей, и далее выкидывать все, что не соответсвует критериям.
В качестве способа иллюстрации уровня экспрессии наши товарищи используют в картинках дополнительную вертикальную ось, где отмечают уровень экспрессии определенной пробы по сравнению со всеми другими тестируемыми пробами - если открыть вот эту страничку - http://www.nature.com/ng/journal/v42/n4/extref/ng.543-S1.pdf и поискать в тексте supplementary figure 2, то под шапкой к рисунку будет много картинок, где справа на оси Y есть "риска" для каждой пробы. Чем она выше, тем выше экспрессия этой пробы по отношению ко всем остальным. В данном случае использовалось не секвенирование а genome-wide illumina gene expression chip, но можно придумать что-то подобное и в Вашем случае секвенирования.
Год назад в Nature была пара статей про RNA-секвенирование в качестве оценки экспрессии, возможно, там найдется полезная информация на тему того, какой они использовали cut-off для анализа экспрессии:
http://www.nature.com/nature/journal/v464/n7289/pdf/nature08872.pdf
http://www.nature.com/nature/journal/v464/n7289/pdf/nature08903.pdf
(статья Притчарда несколько более разумная, я бы с нее начинала). Впрочем, сейчас довольно много печатают на эту тему, из того что я помню - неплохое ревью на тему RNA секвенирования было в январском номере Nat.Rev.Genetics.
К вопросу об анализе данных - в Гронингене на кафедре генетики есть несколько открытых позиций (PhD, postdoc) в проектах связанных с экспрессией генов. Так вот на них с гораздо большей радостью возьмут математиков, чем биологов. Все-таки биологии легче научиться по ходу дела, чем математике и программированию (хехе, это мой хронический комплекс - почему я не программист...).
Успехов! :)
no subject
Date: 2011-04-21 10:20 am (UTC)no subject
Date: 2011-04-21 12:50 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-04-21 10:49 am (UTC)no subject
Date: 2011-04-21 11:58 am (UTC)no subject
Date: 2011-04-21 12:15 pm (UTC)Даже RNA-Seq математика весьма сложная. И если использовать терминологию кроликов и клеток, то вы ловили зверей в одной очень большой клетке набитой зверями, и в другой. В первой поймали много зверей и среди них 27 с ушами как у кроликов. Во второй тоже много зверей, но среди них с ушами как у кроликов не было.
При таком раскладе ответить на вопрос "Насколько кроликов больше во второй клетке, чем в первой?" трудновато. Да даже корректно оценить вероятность того, что в первой их больше не очень просто.
no subject
Date: 2011-04-21 12:23 pm (UTC)no subject
Date: 2011-04-21 01:10 pm (UTC)самому надо проверять
no subject
Date: 2011-04-21 01:18 pm (UTC)Из бесплатного есть языки программирования Python (python.org) и J (jsoftware.com)
Не с паскаля же сегодня начинать обучение.
no subject
Date: 2011-04-27 12:04 pm (UTC)(no subject)
From:(no subject)
From:хотел бы запрограммировать что-то такое
Date: 2011-04-21 02:26 pm (UTC)no subject
Date: 2011-04-21 03:00 pm (UTC)а я-то все мечтаю о временах, когда можно будет загнать все результаты в супер-компьютерный-мозг, чтобы он там все пообмыслил и выдал закономерности, незамеченные пока людьми =)
при этом не знаю, как оценивать достоверность результатов из вполне серьезных статей.
ну, предположим, процентов на 30 достоверны. Еще 30% - злонамеренный обман (от легкой подтасовки "надо защититься/выступить на конфере с красивой кривой" до высосанных из пальца историй ГМ-алармистов). А еще 30% - ошибки типа вот этой... Еще 10% надо куда-то пристроить, ну да неважно)).
вопрос: а по-вашему, как эти проценты распределяются?..
еще раз, из любопытства, а без ссылок виден?
Date: 2011-04-21 08:40 pm (UTC)Разница прочиток (reads, как это будет по-русски?!) между 0 и 1 Вас, конечно, не интересует, а вот 0 и 27 уже, возможно, указывает на тканевую специфичность (зависит от покрытия (coverage), трудно сказать 27 это много или мало, если не знать как обстоят дела в среднем по госпиталю). Так что совсем выкидывать эти результаты я бы не стала. Можно установить границу на минимальную экспрессию в одной из тканей, и далее выкидывать все, что не соответсвует критериям.
В качестве способа иллюстрации уровня экспрессии наши товарищи используют в картинках дополнительную вертикальную ось, где отмечают уровень экспрессии определенной пробы по сравнению со всеми другими тестируемыми пробами - если открыть вот эту страничку - (ссылку удалила, Dubois et al, Nat Genet. 2010 Apr;42(4):295-302; supplementary figures) и поискать в тексте supplementary figure 2, то под шапкой к рисунку будет много картинок, где справа на оси Y есть "риска" для каждой пробы. Чем она выше, тем выше экспрессия этой пробы по отношению ко всем остальным. В данном случае использовалось не секвенирование а genome-wide illumina gene expression chip, но можно придумать что-то подобное и в Вашем случае секвенирования.
Год назад в Nature была пара статей про RNA-секвенирование в качестве оценки экспрессии, возможно, там найдется полезная информация на тему того, какой они использовали cut-off для анализа экспрессии:
Pickrell et al, Nature 464, 768-772
Montgomery et al, там же
(статья Пикрелла/Притчарда несколько более разумная, я бы с нее начинала). Впрочем, сейчас довольно много печатают на эту тему, из того что я помню - неплохое ревью на тему RNA секвенирования было в январском номере Nat.Rev.Genetics.
К вопросу об анализе данных - в Гронингене на кафедре генетики есть несколько открытых позиций (PhD, postdoc) в проектах связанных с экспрессией генов. Так вот на них с гораздо большей радостью возьмут математиков, чем биологов. Все-таки биологии легче научиться по ходу дела, чем математике и программированию (хехе, это мой хронический комплекс - почему я не программист...).
Успехов! :)
Re: еще раз, из любопытства, а без ссылок виден?
Date: 2011-04-25 05:33 pm (UTC)Это указывает прежде всего на большой разброс. Пока не сделаны множественные копии анализа уровней экспрессии с каждого образца данных, никаких выводов делать нельзя, тем более что 27 копий это близко к порогу чувствительности.
"Так что совсем выкидывать эти результаты я бы не стала."
А я бы стал. Это примерно как колориметрия вблизи стандартного буфера: сравнивают оптическую плотность 0.001 и 0.003, и говорят, "Видите? Во 2м образце в 3 раза больше!"
no subject
Date: 2011-04-21 10:07 pm (UTC)no subject
Date: 2011-04-22 05:14 pm (UTC)no subject
Date: 2011-04-22 06:48 pm (UTC)