[personal profile] progenes
Я предполагаю, что меня читают биологи и информатики. Поскольку я сейчас столкнулась с феерическими расчетами, от которых у меня волосы на загривке вздыбились, считаю, что будет неплохо, если я расскажу причастным где впредь быть предельно внимательным. Я, к сожалению, не могу дотянуться до того парня, который это посчитал, чтобы надавать ленейкой по рукам. Но должна сказать, что это сервис, претендующий на серьезный.

Больше чем месяц назад я получила результаты и, помнится, даже всхипнула от ужаса. Дело было вот как.

Перед биологом стоит задача - сравнить экспрессию генов в нескольких тканях. Для этого надо выделить РНК и каким-то из методов определить, с каких генов эта РНК считалась и в каком количестве. Методов есть несколько. От нозерна до микрочипов. Самый модный - это секвенирование 454. О нем и пойдет речь.

Я не буду вдаваться в подробности, что за ткани я анализирую, скажу только, что этой ткани столько, что невооруженным глазом не видно, нарубили лазером под микроскопом. Выделили РНК в количествах на пределе воображения и отправили на прочитку (секвенирование). Это приблизительно так, как сейчас читают геномы, только не ДНК, а РНК. Причем прочитка - это полноценный сервис, который включает все. На выходе, как я уже упоминала 300 гигов информации: сырые сиквенсы, сбивка в контиги, скаффолды и унигены, бласты, функциональная аннотация по геномной антологии, метаболитических путях, визуализация, статистическая обработка и дифференциальный анализ. Все растыкано по 2000 тыщам файлов. Задача биолога теперь все ОСМЫСЛИТЬ и интерпретировать и сделать выводы, как же отличается работа генов в разных тканях и почему.

Я сузила сначала задачу и из вороха файлов нашла исходник в экселе: сравнение генной экспрессии в двух (из 48ми) тканях. Теперь внимание и пристегнитесь. Результаты сравнения представлены в виде log2 значения соотношения экспрессии генов в ткани 1 vs. 2. Просто настолько, что можно понять и идиоту, верно? Значения колеблются от -15 до плюс 15 (это уже log2). Огого, сечете разницу в экспрессии? Всех генов несколько десятков тыщ.

В этом месте меня подвело банальное любопытство. Что ж это за ген такой, у которого разница в работе в двух близлежащих тканях 214? Роюсь в ворохе файлов и нахожу сырые результаты. И тут, друзья, у меня глаза на переносице и сбежались. Потому что я знаю, что это за сырые значения. А это всего навсего количественный подчет ШТУК КУСКОВ РНК, которые принадлежат одному гену. Держитесь теперь крепче, пример из жизни.

Ген Х. Логарифмированное значение соотношения экспрессии в тканях 1 vs. 2 равно 14,72. Сырые данные в студию. В ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 27 кусков. Формула расчета log2(27:0). Что, съели касатики?!!! Говорите на ноль нельзя делить? Ну нельзя так нельзя (хотя в результатах стоит ноль). Я прикинула, как могли бы рассуждать те, кто уныло смотрит на ноль. Ноль надо заменить на число, отличное от нуля. Я начала тупо подставлять и проверять логарифмом, как у них 14,72 получилось. Оказалось, что 0 приравняли до 0,001. log2(27:0,001)=14,72

Если вы еще не ржете, посчитайте, какое значение log2 будет, если в ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 2 (два) куска. То есть вы догадываетесь, куда можно засунуть эти 300 гигов и ограничиться одной таблицей в экселе, да?

Проблема в том, что редкий биолог интересуется сырыми данными, если сервис поставил уже готовое соотношение в красочных схемах и диаграммах. И редкий информатик интересуется особенностями того, что ему поручено посчитать. Для него это голые абстрактные числа, а для меня это штуки кусков РНК. Особенно печально, если биолог мало знает о проблемах и недостатках того метода, которым хочет что-то проверить. После таких ляпов у меня возникли подозрения к алгоритмам сбивки в контиги (которые я встречала в других случаях), к проблемам аннотации (с которой долбилась годами). Эта же проблема также касается и анализов всяких там аффиметриксов и прочих биочипов.

Вырасту большой и научусь программированию сама.

Date: 2011-04-21 07:36 am (UTC)
From: [identity profile] infist-xxi.livejournal.com
а что, это отменят принцип что на ноль делить нельзя? :)

Date: 2011-04-21 08:26 am (UTC)
From: [identity profile] oude-rus.livejournal.com
кто вам сказал такую глупость, что на ноль делить нельзя?

Date: 2011-04-21 08:47 am (UTC)
From: [identity profile] infist-xxi.livejournal.com
В данном случае не имеются в виду ни неопределенности, ни бесконечно малые величины - тут должна генерироваться некоторая исключительная ситуация, предусмотренная в проекте.

Date: 2011-04-21 08:50 am (UTC)
From: [identity profile] infist-xxi.livejournal.com
ну или, действительно, как вы пишите ниже - выдавать некоторый числовой inf, который на гистограмме потом будет видно.

Profile

progenes: (Default)
progenes

March 2025

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 29th, 2025 02:55 am
Powered by Dreamwidth Studios