Все посмотрели уже Аватар? Понравилось? А теперь смотрите сюда и слушайте. Если дело пойдет и дальше так, то фиг вы получите не только клонированных инопланетян, но и людишек даже в ближайшие тыщу лет!
Приблизительно в 2001 году у нас в группе стартовал проект по визуализации развития ячменного семени. Идея заключалась в том, чтобы накрошить семя на тонкие срезы, все заснять и сложить с помощью информатиков в 3D модель. Это программа-минимум. Программа-максимум заключалась в том, чтобы сделать точный анатомический атлас семени и интегрировать в модель места работы определенных генов. Лет пять бодались, получилась убогая картинка, которая не обогатила человечество знаниями ни на йоту. Вот такая.

Взяли на проект нового цитолога и новых информатиков, дали им лазер для нарезки. Накрошили и собрали модель чуток получше. Но показать вам ее я не могу, потому что биологи поссорились с информатиками по поводу на каком сервере вывешивать картинки - у нас в институте, или у них в недружественном университете. Пока не решат, человечество так и не узнает, что там в ячменном семени внутри. Впрочем, ничего нового там тоже не нашли, просто красиво. Я видела.
UPD: оказалось, что самые красивые картинкиньювасюковцы Pattern Recognition Group выложила у нас на сайте: Projects=>Automatic Generation of 3-D and 4-D Models. Выглядит душераздирающе.
Теперь касательно реализации программы-максимум про те гены, которые там работают. Я там каким-то боком, поэтому расскажу, меня прет. Вырезали лазером ткани очень махонькие из этих срезов. Выделили из них РНК и загибридизовали на ячменный чип на котором 43 тысячи генов. Звучит наверное очень красиво и удивительно. Но пока все интеллектуальные силы информатиков брошены на конструирование 3D-эффектов Аватаров, я тут обливаюсь горючими слезами. Я уже вижу, какие генные последовательности включились в этом гребаном семени, я головой и ручками в Экселе посчитала. Но как только я решила посмотреть, что именно это за гены, то тут (цензоред) меня ждало жестокое разочарование. Потому что из всех 43 тыщ генов автоматически определены едва 5%. А остальное 95% неидентифицированное нечто по 60 нуклеотидов длинной. И вот уже вторую неделю я терзаю всемирное биоинформатическое комьюнити в надежде, что может какая биоинформатическая сволочь их когда-то где-то определила, иначе все эти чипы (цензоред)коту под хвост. Мне "пшеничные" спецы смеются гомерически в лицо, потому что у них дела обстоят еще хуже, у них и этой информации нету.
А в это время, в Германии финансирование немецкого кинематографа больше, чем финансирование науки. А бюджет одного голливудского Аватара будет поболе финансирования всей мировой биоинформатики. Поняли? Так что клонированные аватары в ближайшем будущем только в кино.
Приблизительно в 2001 году у нас в группе стартовал проект по визуализации развития ячменного семени. Идея заключалась в том, чтобы накрошить семя на тонкие срезы, все заснять и сложить с помощью информатиков в 3D модель. Это программа-минимум. Программа-максимум заключалась в том, чтобы сделать точный анатомический атлас семени и интегрировать в модель места работы определенных генов. Лет пять бодались, получилась убогая картинка, которая не обогатила человечество знаниями ни на йоту. Вот такая.

Взяли на проект нового цитолога и новых информатиков, дали им лазер для нарезки. Накрошили и собрали модель чуток получше. Но показать вам ее я не могу, потому что биологи поссорились с информатиками по поводу на каком сервере вывешивать картинки - у нас в институте, или у них в недружественном университете. Пока не решат, человечество так и не узнает, что там в ячменном семени внутри. Впрочем, ничего нового там тоже не нашли, просто красиво. Я видела.
UPD: оказалось, что самые красивые картинки
Теперь касательно реализации программы-максимум про те гены, которые там работают. Я там каким-то боком, поэтому расскажу, меня прет. Вырезали лазером ткани очень махонькие из этих срезов. Выделили из них РНК и загибридизовали на ячменный чип на котором 43 тысячи генов. Звучит наверное очень красиво и удивительно. Но пока все интеллектуальные силы информатиков брошены на конструирование 3D-эффектов Аватаров, я тут обливаюсь горючими слезами. Я уже вижу, какие генные последовательности включились в этом гребаном семени, я головой и ручками в Экселе посчитала. Но как только я решила посмотреть, что именно это за гены, то тут (цензоред) меня ждало жестокое разочарование. Потому что из всех 43 тыщ генов автоматически определены едва 5%. А остальное 95% неидентифицированное нечто по 60 нуклеотидов длинной. И вот уже вторую неделю я терзаю всемирное биоинформатическое комьюнити в надежде, что может какая биоинформатическая сволочь их когда-то где-то определила, иначе все эти чипы (цензоред)коту под хвост. Мне "пшеничные" спецы смеются гомерически в лицо, потому что у них дела обстоят еще хуже, у них и этой информации нету.
А в это время, в Германии финансирование немецкого кинематографа больше, чем финансирование науки. А бюджет одного голливудского Аватара будет поболе финансирования всей мировой биоинформатики. Поняли? Так что клонированные аватары в ближайшем будущем только в кино.
Tags:
no subject
Date: 2010-01-11 03:51 pm (UTC)По вертикали 43 тыщи генов. По горизонтали 54 колонки данных гибридизации так, что на каждый ген приходится какой-то показатель (в даном случае интенсивность свечения спота в условных единицах).
Мне надо.
1. Отфильтровать такие значения, которые меньше 100, хотя бы в одной из 54 гибридизаций. Шумы.
2. В числе этих 54 гибридизаций есть 3 повтора (итого, 54:3 равно 18 массивов) Значит мне надо отфильтровать те, где среднее арифметическое этих троих повторов отклоняется от ошибки. Отфильтровать.
3. Сравнить средние арифметические (или посчитать коэфициенты достоверности, например ттест) тех 18 колонок, на которые я ткну пальцем. Отфильтровать те, которые недостоверны, оставить те, которые достоверно они отличаются между собой и посчитать насколько отличается интенсивность работы гена в разных тканях и насколько.
4. Посортировать. На выходе из 43 тыщ может остаться пару тыщ статистически довтоверных отличий хотя бы в одной из 18ти массивов.
5. Посмотреть что это за ген (18 тыщ) из которых у меня информация только о его 60ти нуклеотидах.
6. Для этого надо поймать того негодяя, который делал этот чип и под пытками получить нормальную аннотацию.
7. В противном случае надо бластить эти 60ти меры с теми коллекциями EST, до которых я могу дотянуться, но это совсем другая история.
no subject
Date: 2010-01-11 07:06 pm (UTC)Давайте попробуем перевести на немного более программистский :)
Есть таблица: 43000 строки и 54 столбца, причем эти 54 столбца - это 18 столбцов по 3 "подстолбца" - повторы, я правильно понимаю?
Дальше по пунктам:
1. " Отфильтровать такие значения, которые меньше 100, хотя бы в одной из 54 гибридизаций." = удалить те строки, в которых есть хотя бы одно значение < 100
2. "В числе этих 54 гибридизаций есть 3 повтора (итого, 54:3 равно 18 массивов) Значит мне надо отфильтровать те, где среднее арифметическое этих троих повторов отклоняется от ошибки. Отфильтровать."
=
для каждой из 43000 строк:
для каждого из 18 столбцов ("толстых", по 3 значения):
посчитать среднее арифметическое трех значений M=(x1+x2+x3)/3
>> а дальше не очень понятно, что значит "отфильтровать те, где среднее арифметическое этих троих повторов отклоняется от ошибки". Среднее арифметическое повторов мы посчитали, а с чем его сравнивать? от какой ошибки? дальше допустим мы нашли столбец, в котором разброс в трех значениях "слишком" велик - удаляем эту строку? <<
3. "Сравнить средние арифметические (или посчитать коэфициенты достоверности, например ттест) тех 18 колонок, на которые я ткну пальцем."
Есть 18 троек столбцов. Из каждой тройки Вы выбрали один. Теперь считаем средние арифметические по столбцам? Т.е. для каждого из 18 столбцов усредняем 43000 (или сколько там осталось) значений в столбце и потом сравниваем эти 18 значений?
"Отфильтровать те, которые недостоверны, оставить те, которые достоверно они отличаются между собой"
Удалить строки, в которых - что? Слишком сильно отличаются значения от полученных средних?
" и посчитать насколько отличается интенсивность работы гена в разных тканях и насколько."
Совсем непонятно %) Для каждой строки посмотреть, как отличаются значения в 18 столбцах? Как посмотреть? График построить для каждой строки?
4. "Посортировать."
оставшиеся строки по возрастанию/убыванию выбранного столбца?
5. "Посмотреть что это за ген (18 тыщ) из которых у меня информация только о его 60ти нуклеотидах." откуда-то взялись числа 18000 и 60, а откуда - непонятно...
Пока что кажется, что это все и в самом деле совсем несложные для программиста действия. Уж скрипт написать - совсем ерунда. Я думаю, и любой биолог справится, если сформулирует алгоритм. Или если программист поможет :)
Вот приделать к нему толковый интерфейс ("человеческий тул сделать") посложнее. К тому же у любого тула функциональность ограничена тем, что в него программисты запрограммировали, а у скриптов такой проблемы нет, особенно если Вы их сами пишете :)
no subject
Date: 2010-01-12 04:10 am (UTC)Если нужно пробовать разные алгоритмы на одних и тех же данных, то имеет смысл перегнать данные в базу данных для скорости, и играться с запросами на SQL (хотя бы для первичной фильтрации и обработки, с целью уменьшить объём и привести к удобной форме). Результаты можно скормить в тот же Эксель, или, скажем, в программу на каком-нибудь из .NET-языков (в принципе, запросы к БД можно прямо в программе писать, пользуясь LINQ (http://en.wikipedia.org/wiki/Language_Integrated_Query)). Можно, конечно, и Питон или ещё что, но у .NET скорость повыше должна быть.
Если же нужно постоянно анализировать разные данные в одинаковом формате, по одинаковому алгоритму, тогда уже имеет смысл писать отдельную программу. Это уже довольно продвинутый этап, когда эксперимент поставлен на поток и стабильно, в течение многих дней, генерит кучу информации. Если стабильности формата данных и алгоритмов нет, то написание и отладка скриптов может занять не меньше времени, чем анализ ручками.
Могу пробластить все 43000
Date: 2010-01-15 11:36 pm (UTC)