[personal profile] progenes
Все посмотрели уже Аватар? Понравилось? А теперь смотрите сюда и слушайте. Если дело пойдет и дальше так, то фиг вы получите не только клонированных инопланетян, но и людишек даже в ближайшие тыщу лет!

Приблизительно в 2001 году у нас в группе стартовал проект по визуализации развития ячменного семени. Идея заключалась в том, чтобы накрошить семя на тонкие срезы, все заснять и сложить с помощью информатиков в 3D модель. Это программа-минимум. Программа-максимум заключалась в том, чтобы сделать точный анатомический атлас семени и интегрировать в модель места работы определенных генов. Лет пять бодались, получилась убогая картинка, которая не обогатила человечество знаниями ни на йоту. Вот такая.


Взяли на проект нового цитолога и новых информатиков, дали им лазер для нарезки. Накрошили и собрали модель чуток получше. Но показать вам ее я не могу, потому что биологи поссорились с информатиками по поводу на каком сервере вывешивать картинки - у нас в институте, или у них в недружественном университете. Пока не решат, человечество так и не узнает, что там в ячменном семени внутри. Впрочем, ничего нового там тоже не нашли, просто красиво. Я видела.

UPD: оказалось, что самые красивые картинки ньювасюковцы Pattern Recognition Group выложила у нас на сайте: Projects=>Automatic Generation of 3-D and 4-D Models. Выглядит душераздирающе.

Теперь касательно реализации программы-максимум про те гены, которые там работают. Я там каким-то боком, поэтому расскажу, меня прет. Вырезали лазером ткани очень махонькие из этих срезов. Выделили из них РНК и загибридизовали на ячменный чип на котором 43 тысячи генов. Звучит наверное очень красиво и удивительно. Но пока все интеллектуальные силы информатиков брошены на конструирование 3D-эффектов Аватаров, я тут обливаюсь горючими слезами. Я уже вижу, какие генные последовательности включились в этом гребаном семени, я головой и ручками в Экселе посчитала. Но как только я решила посмотреть, что именно это за гены, то тут (цензоред) меня ждало жестокое разочарование. Потому что из всех 43 тыщ генов автоматически определены едва 5%. А остальное 95% неидентифицированное нечто по 60 нуклеотидов длинной. И вот уже вторую неделю я терзаю всемирное биоинформатическое комьюнити в надежде, что может какая биоинформатическая сволочь их когда-то где-то определила, иначе все эти чипы (цензоред)коту под хвост. Мне "пшеничные" спецы смеются гомерически в лицо, потому что у них дела обстоят еще хуже, у них и этой информации нету.

А в это время, в Германии финансирование немецкого кинематографа больше, чем финансирование науки. А бюджет одного голливудского Аватара будет поболе финансирования всей мировой биоинформатики. Поняли? Так что клонированные аватары в ближайшем будущем только в кино.

Date: 2010-01-11 07:06 pm (UTC)
From: [identity profile] robusta.livejournal.com
Мда, трудно программисту биолога понять :)
Давайте попробуем перевести на немного более программистский :)

Есть таблица: 43000 строки и 54 столбца, причем эти 54 столбца - это 18 столбцов по 3 "подстолбца" - повторы, я правильно понимаю?

Дальше по пунктам:
1. " Отфильтровать такие значения, которые меньше 100, хотя бы в одной из 54 гибридизаций." = удалить те строки, в которых есть хотя бы одно значение < 100
2. "В числе этих 54 гибридизаций есть 3 повтора (итого, 54:3 равно 18 массивов) Значит мне надо отфильтровать те, где среднее арифметическое этих троих повторов отклоняется от ошибки. Отфильтровать."
=
для каждой из 43000 строк:
для каждого из 18 столбцов ("толстых", по 3 значения):
посчитать среднее арифметическое трех значений M=(x1+x2+x3)/3

>> а дальше не очень понятно, что значит "отфильтровать те, где среднее арифметическое этих троих повторов отклоняется от ошибки". Среднее арифметическое повторов мы посчитали, а с чем его сравнивать? от какой ошибки? дальше допустим мы нашли столбец, в котором разброс в трех значениях "слишком" велик - удаляем эту строку? <<

3. "Сравнить средние арифметические (или посчитать коэфициенты достоверности, например ттест) тех 18 колонок, на которые я ткну пальцем."
Есть 18 троек столбцов. Из каждой тройки Вы выбрали один. Теперь считаем средние арифметические по столбцам? Т.е. для каждого из 18 столбцов усредняем 43000 (или сколько там осталось) значений в столбце и потом сравниваем эти 18 значений?

"Отфильтровать те, которые недостоверны, оставить те, которые достоверно они отличаются между собой"
Удалить строки, в которых - что? Слишком сильно отличаются значения от полученных средних?

" и посчитать насколько отличается интенсивность работы гена в разных тканях и насколько."
Совсем непонятно %) Для каждой строки посмотреть, как отличаются значения в 18 столбцах? Как посмотреть? График построить для каждой строки?

4. "Посортировать."
оставшиеся строки по возрастанию/убыванию выбранного столбца?

5. "Посмотреть что это за ген (18 тыщ) из которых у меня информация только о его 60ти нуклеотидах." откуда-то взялись числа 18000 и 60, а откуда - непонятно...

Пока что кажется, что это все и в самом деле совсем несложные для программиста действия. Уж скрипт написать - совсем ерунда. Я думаю, и любой биолог справится, если сформулирует алгоритм. Или если программист поможет :)

Вот приделать к нему толковый интерфейс ("человеческий тул сделать") посложнее. К тому же у любого тула функциональность ограничена тем, что в него программисты запрограммировали, а у скриптов такой проблемы нет, особенно если Вы их сами пишете :)

Profile

progenes: (Default)
progenes

March 2025

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 1st, 2026 04:12 am
Powered by Dreamwidth Studios