Я предполагаю, что меня читают биологи и информатики. Поскольку я сейчас столкнулась с феерическими расчетами, от которых у меня волосы на загривке вздыбились, считаю, что будет неплохо, если я расскажу причастным где впредь быть предельно внимательным. Я, к сожалению, не могу дотянуться до того парня, который это посчитал, чтобы надавать ленейкой по рукам. Но должна сказать, что это сервис, претендующий на серьезный.
Больше чем месяц назад я получила результаты и, помнится, даже всхипнула от ужаса. Дело было вот как.
Перед биологом стоит задача - сравнить экспрессию генов в нескольких тканях. Для этого надо выделить РНК и каким-то из методов определить, с каких генов эта РНК считалась и в каком количестве. Методов есть несколько. От нозерна до микрочипов. Самый модный - это секвенирование 454. О нем и пойдет речь.
Я не буду вдаваться в подробности, что за ткани я анализирую, скажу только, что этой ткани столько, что невооруженным глазом не видно, нарубили лазером под микроскопом. Выделили РНК в количествах на пределе воображения и отправили на прочитку (секвенирование). Это приблизительно так, как сейчас читают геномы, только не ДНК, а РНК. Причем прочитка - это полноценный сервис, который включает все. На выходе, как я уже упоминала 300 гигов информации: сырые сиквенсы, сбивка в контиги, скаффолды и унигены, бласты, функциональная аннотация по геномной антологии, метаболитических путях, визуализация, статистическая обработка и дифференциальный анализ. Все растыкано по 2000 тыщам файлов. Задача биолога теперь все ОСМЫСЛИТЬ и интерпретировать и сделать выводы, как же отличается работа генов в разных тканях и почему.
Я сузила сначала задачу и из вороха файлов нашла исходник в экселе: сравнение генной экспрессии в двух (из 48ми) тканях. Теперь внимание и пристегнитесь. Результаты сравнения представлены в виде log2 значения соотношения экспрессии генов в ткани 1 vs. 2. Просто настолько, что можно понять и идиоту, верно? Значения колеблются от -15 до плюс 15 (это уже log2). Огого, сечете разницу в экспрессии? Всех генов несколько десятков тыщ.
В этом месте меня подвело банальное любопытство. Что ж это за ген такой, у которого разница в работе в двух близлежащих тканях 214? Роюсь в ворохе файлов и нахожу сырые результаты. И тут, друзья, у меня глаза на переносице и сбежались. Потому что я знаю, что это за сырые значения. А это всего навсего количественный подчет ШТУК КУСКОВ РНК, которые принадлежат одному гену. Держитесь теперь крепче, пример из жизни.
Ген Х. Логарифмированное значение соотношения экспрессии в тканях 1 vs. 2 равно 14,72. Сырые данные в студию. В ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 27 кусков. Формула расчета log2(27:0). Что, съели касатики?!!! Говорите на ноль нельзя делить? Ну нельзя так нельзя (хотя в результатах стоит ноль). Я прикинула, как могли бы рассуждать те, кто уныло смотрит на ноль. Ноль надо заменить на число, отличное от нуля. Я начала тупо подставлять и проверять логарифмом, как у них 14,72 получилось. Оказалось, что 0 приравняли до 0,001. log2(27:0,001)=14,72
Если вы еще не ржете, посчитайте, какое значение log2 будет, если в ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 2 (два) куска. То есть вы догадываетесь, куда можно засунуть эти 300 гигов и ограничиться одной таблицей в экселе, да?
Проблема в том, что редкий биолог интересуется сырыми данными, если сервис поставил уже готовое соотношение в красочных схемах и диаграммах. И редкий информатик интересуется особенностями того, что ему поручено посчитать. Для него это голые абстрактные числа, а для меня это штуки кусков РНК. Особенно печально, если биолог мало знает о проблемах и недостатках того метода, которым хочет что-то проверить. После таких ляпов у меня возникли подозрения к алгоритмам сбивки в контиги (которые я встречала в других случаях), к проблемам аннотации (с которой долбилась годами). Эта же проблема также касается и анализов всяких там аффиметриксов и прочих биочипов.
Вырасту большой и научусь программированию сама.
Больше чем месяц назад я получила результаты и, помнится, даже всхипнула от ужаса. Дело было вот как.
Перед биологом стоит задача - сравнить экспрессию генов в нескольких тканях. Для этого надо выделить РНК и каким-то из методов определить, с каких генов эта РНК считалась и в каком количестве. Методов есть несколько. От нозерна до микрочипов. Самый модный - это секвенирование 454. О нем и пойдет речь.
Я не буду вдаваться в подробности, что за ткани я анализирую, скажу только, что этой ткани столько, что невооруженным глазом не видно, нарубили лазером под микроскопом. Выделили РНК в количествах на пределе воображения и отправили на прочитку (секвенирование). Это приблизительно так, как сейчас читают геномы, только не ДНК, а РНК. Причем прочитка - это полноценный сервис, который включает все. На выходе, как я уже упоминала 300 гигов информации: сырые сиквенсы, сбивка в контиги, скаффолды и унигены, бласты, функциональная аннотация по геномной антологии, метаболитических путях, визуализация, статистическая обработка и дифференциальный анализ. Все растыкано по 2000 тыщам файлов. Задача биолога теперь все ОСМЫСЛИТЬ и интерпретировать и сделать выводы, как же отличается работа генов в разных тканях и почему.
Я сузила сначала задачу и из вороха файлов нашла исходник в экселе: сравнение генной экспрессии в двух (из 48ми) тканях. Теперь внимание и пристегнитесь. Результаты сравнения представлены в виде log2 значения соотношения экспрессии генов в ткани 1 vs. 2. Просто настолько, что можно понять и идиоту, верно? Значения колеблются от -15 до плюс 15 (это уже log2). Огого, сечете разницу в экспрессии? Всех генов несколько десятков тыщ.
В этом месте меня подвело банальное любопытство. Что ж это за ген такой, у которого разница в работе в двух близлежащих тканях 214? Роюсь в ворохе файлов и нахожу сырые результаты. И тут, друзья, у меня глаза на переносице и сбежались. Потому что я знаю, что это за сырые значения. А это всего навсего количественный подчет ШТУК КУСКОВ РНК, которые принадлежат одному гену. Держитесь теперь крепче, пример из жизни.
Ген Х. Логарифмированное значение соотношения экспрессии в тканях 1 vs. 2 равно 14,72. Сырые данные в студию. В ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 27 кусков. Формула расчета log2(27:0). Что, съели касатики?!!! Говорите на ноль нельзя делить? Ну нельзя так нельзя (хотя в результатах стоит ноль). Я прикинула, как могли бы рассуждать те, кто уныло смотрит на ноль. Ноль надо заменить на число, отличное от нуля. Я начала тупо подставлять и проверять логарифмом, как у них 14,72 получилось. Оказалось, что 0 приравняли до 0,001. log2(27:0,001)=14,72
Если вы еще не ржете, посчитайте, какое значение log2 будет, если в ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 2 (два) куска. То есть вы догадываетесь, куда можно засунуть эти 300 гигов и ограничиться одной таблицей в экселе, да?
Проблема в том, что редкий биолог интересуется сырыми данными, если сервис поставил уже готовое соотношение в красочных схемах и диаграммах. И редкий информатик интересуется особенностями того, что ему поручено посчитать. Для него это голые абстрактные числа, а для меня это штуки кусков РНК. Особенно печально, если биолог мало знает о проблемах и недостатках того метода, которым хочет что-то проверить. После таких ляпов у меня возникли подозрения к алгоритмам сбивки в контиги (которые я встречала в других случаях), к проблемам аннотации (с которой долбилась годами). Эта же проблема также касается и анализов всяких там аффиметриксов и прочих биочипов.
no subject
Date: 2011-04-21 07:59 am (UTC)А вот где проходит трешхолд абсолютных значений, p-value и чувствительности метода - я сказать не могу, пробую сама разобраться. Наверное, это можно сказать только глядя весь массив данных и зная особенности технических ошибок.
no subject
Date: 2011-04-21 08:23 am (UTC)Вообще не знаю, как тут правильно.
Лучше всего конечно сделать порог по N1 какой-нибудь разумный.
Вообще я с секвенированием сама еще не сталкивалась, не знаю, какие там критерии, можно ли сравнивать гены между собой.
Если да, то может имеет смысл не прямо фолдчендж считать, а какую-нибудь ранговую статистику. Тут нули не должны мешать.
Типа если отсортировать гены по экспрессии в обоих тканях, то какие-то гены будут всегда вверху или внизу, а какие-то поменяют свое положение с сотой позиции на двухтысячную. Возможно при сравнении разных тканей это более перспективно чем фолдчендж, это же не одиночное воздействие, где можно рассчитывать что отработали гены какого-то определенного пасвея, а весь комплекс взаимоотношений.
no subject
Date: 2011-04-21 09:22 am (UTC)no subject
Date: 2011-04-21 09:43 am (UTC)Кстати.
Бывшие коллеги-программисты вроде именно дип сиквенсингом занимаются сейчас, надо их попытать.
no subject
Date: 2011-04-22 08:07 pm (UTC)no subject
Date: 2011-04-23 11:17 pm (UTC)no subject
Date: 2011-04-23 11:55 pm (UTC)no subject
Date: 2011-04-23 11:58 pm (UTC)Re: UPDATE II
Date: 2011-04-21 10:13 am (UTC)no subject
Date: 2011-04-21 10:14 am (UTC)"Если у нас разумный эксперимент, то N1 обычно равно N2 - (они определяются работой секвенатора, в первую очередь)" Судя по всему изначально N1 и N2 не равно, но сырые риды как бы "нормализованы" в показатель RPKM (read per kb per million reads), поэтому в конце концов N1 и N2 приравнены (если я правильно понимаю).
Отдельное спасибо, что объяснили про бином, а от я как баран на факториалы смотрела.
Ок, я могу ранжировать по P-value без проблем. Кроме P-value есть еще FDR для определения трешхолда для P-value. Причем у меня уже были отсортированные по FDR<0.001 и по log2>1 списки генов, которые лихо растыканы в красках по метаболитичесих путях. Но мне все-равно как-то надо интерпретировать, что за разница и на чем она базируется. То, что в одной ткани совсем нет ридов для каких-то генов, а в другой есть, причем это наблюдается на всех стадиях развития, для меня архиважная информация.
вроде бы все остальное правильно
Date: 2011-04-25 05:18 pm (UTC)она в их формуле не фигурирует
Date: 2011-04-29 06:36 am (UTC)Вот в этом то все и дело. А без нее формула -- бред. Причем не просто смысла не имеющий бред, но заведомо приводящий к неверным выводам бред.
Re: она в их формуле не фигурирует
Date: 2011-04-29 09:01 am (UTC)Если что, то у меня не просто риды, а "нормализованные" (? ) в reads per kb per million reads (RPKM). Опять таки, навскидку 80% унигенов (конечных кнтигов) с максимальной длиной около 200 баз. Референтного генома, чтобы определить, сколько реально генов и которые из них действительно экспрессия, а не контаминация - нет. Такой короткий контиг тупо считается "геном", от него и пляшут. Насколько к такому "ошметку" "прилипшие" риды отображают реальную картину экспрессии - это мне никакое P-value не скажет. А может это куски консервативных доменов с разных генов? Какие они там gaps допускали? Черти что!
Re: она в их формуле не фигурирует
Date: 2011-05-05 09:58 am (UTC)1. Функциональная аннотация по функциональным категориям и прочим ОГ во всех 48 библиотеках почти один в один. Это отражает только особенности и предел автоматической аннотации вообще. При более внимательном рассмотрении оказывается, что автоматическая аннотация покрывает процентов 60 (это я очень щедра сегодня).
2. Вы берете щедрый допуск E-value для BLASTa. Если я не ошибаюсь, то 10 в минус 6ти. После длительных и продолжительных боев я остановилась на 10 в минус 20 и все еще нахожу всякий мусор.
3. Возвращаясь к болезненной теме репродуктивности ризалтс. Смотрите внимательно на мои результаты:
стадия 1, ткань 1 vs. ткань 2 - 9412 differentially expressed genes (DFG)
стадия 2, ткань 1 vs. ткань 2 - 46347 DFGs
стадия 3, ткань 1 vs. ткань 2 - 7332 DFGs
стадия 4, ткань 1 vs. ткань 2 - 5601 DFGs
стадия 5, ткань 1 vs. ткань 2 - 5719 DFGs
Вам ничего не кажется подозрительным в таком раскладе? Ткани одни и те же, собранные с интервалом в несколько дней. Все библиотеки проходили идентичную нормализацию. Вам не кажется странной стадия 2? Если смотреть с биологической точки зрения, то там не проиходит ничего страшно драматичного в экспрессии, чтобы настолько отражалось в уровне экспрессии генов. Если сравнивать все стадии между собой, то если убрать стадию 2, то получаются логичные кластеры. А стадия 2 как бельмо на глазу, там DFGs показывают противоположную тенденцию. У меня для этого есть одно единственное объяснение - мы наблюдаем техническую ошибку, причем у меня сто идей, откуда она могла взяться. И вместо того, чтобы ее искать, я просто исключу эту стадию. Скажите, у вас есть какие-то критерии, чтобы исключить подобную ошибку в вашей статье при разовом сравнении двух библиотек? В остальном придраться к статье невозможно, чисто сделано и аккуратно.
Re: она в их формуле не фигурирует
Date: 2011-05-05 11:02 am (UTC)Отрадно, что в картинке набмер 4 вы ограничились солидными контигами, длиной свыше 300 баз. Я тоже так делаю.
Таблица номер 5 особенно интересна. Я правильно понимаю, что контиги с двумя ридами определялись как кандидаты на потенциально DEG? А контиги с ридами больше восьми дают аж 320 DEG? Неплохо бы проверить гипотезу не статистическими методами, а техническими вроде qRT-PCR. Не удивительно, что мои 27 ридов в контиге показались кому-то странными. Коллеги проверили qRT-PCR и нозерном пару пилотных генов и пришли к неутешительному выводу, что трешхолд у них проходит по границе в... 100 ридов на контиг. Тогда результаты по генной экспрессии не то, чтобы коррелируют, а хотя бы напоминают отдаленно реальную картину с 454 транскриптомиксом. Конечно, это зависит от количества ридов, чистоты секвенирования, но такие факты полезно знать.