Сильно

Mar. 9th, 2011 11:12 am
progenes: (Default)
[personal profile] progenes
Получила результаты экспрессионного анализа, секвенирование РНК по методу 454. 48 проб. На выходе увесистый ZIP, в распакованом виде около 300 гигов (но я все еще не распаковала), а это уже около 2000 (2 тыщ) штук разнообразных файлов, преимущественно Excel, которые при открытии весело сообщают, что ячейки в таблице закончились.

readmy доброжелательно гласит:
The probability of gene A expressed equally between two samples can be calculated with the following formula:

2x(1-p(i|x))

(if p(i|x)>0.5)

p(i|x)=(N2/N1)y*(x+y)!/x!y!(1+N2/N1) (x+y+1)

НЕРВНО РЖУ. Даже если открывать файлы, чтобы посмотреть, что там в них внутри, не вникая в содержание, то по минуте на каждый файл - это чистых 4 дня рабочего времени. И это только глянуть мельком! Мне кажется, биоинформатика уже укусила себя за хвост.

Пысы. А у нового Excel есть ограничение по количеству ячеек в таблицах? И о чем эта формула вообще? УМОРА! Я вот даже еще совершенно не огорчилась, я просто ошарашена. Моя задача - это все ПЕРЕСЧИТАТЬ! Пойду лучше горох подготовлю на высадку.

Date: 2011-03-09 10:20 am (UTC)
From: [identity profile] michael.ul.myopenid.com (from livejournal.com)
Кто ж такое руками открывает? Это автоматизации требует, конечно. Ну, ничего, физики с астрономами и с большими объёмами работают.

Date: 2011-03-09 10:22 am (UTC)
From: [identity profile] progenes.livejournal.com
Ну я обломалась на третьем файле. Надо идти сдаваться программистам.

(no subject)

From: [identity profile] michael.ul.myopenid.com - Date: 2011-03-09 10:25 am (UTC) - Expand

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 10:40 am (UTC) - Expand

(no subject)

From: [identity profile] aintlion.livejournal.com - Date: 2011-03-09 11:22 am (UTC) - Expand

(no subject)

From: [identity profile] gegmopo4.livejournal.com - Date: 2011-03-09 11:38 am (UTC) - Expand

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 12:40 pm (UTC) - Expand

(no subject)

From: [identity profile] magik-ocean.livejournal.com - Date: 2011-03-09 01:37 pm (UTC) - Expand

Date: 2011-03-09 10:28 am (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
Ну, в экселевском формате такое, конечно, хранить неразумно, следует хотя бы в CSV, или HDF, или какие там специализованные форматы.

А вы уверены, что это именно xls, а не cvs?

Присоединяюсь к вопросу

Date: 2011-03-09 10:37 am (UTC)
From: [identity profile] http://users.livejournal.com/alkor_/
Excel любит под себя подгребать всякие условно "свои" расширения. Если таки cvs, то я бы пробовал открыть текстовым редактором (не Notepade'ом!)...

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 10:41 am (UTC) - Expand

(no subject)

From: [identity profile] gegmopo4.livejournal.com - Date: 2011-03-09 11:12 am (UTC) - Expand

(no subject)

From: [identity profile] vigna.livejournal.com - Date: 2011-03-09 11:19 am (UTC) - Expand

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 11:55 am (UTC) - Expand

(no subject)

From: [identity profile] vigna.livejournal.com - Date: 2011-03-09 09:34 pm (UTC) - Expand

(no subject)

From: [identity profile] vigna.livejournal.com - Date: 2011-03-09 11:22 am (UTC) - Expand

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 11:57 am (UTC) - Expand

(no subject)

From: [identity profile] red-rat-catcher.livejournal.com - Date: 2011-03-09 11:22 am (UTC) - Expand

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 11:58 am (UTC) - Expand

(no subject)

From: [identity profile] red-rat-catcher.livejournal.com - Date: 2011-03-09 11:59 am (UTC) - Expand

Date: 2011-03-09 10:29 am (UTC)
From: [identity profile] magik-ocean.livejournal.com
При таких объемах данных экселевские файлики, конечно, не катят :)) У нас (в моделировании глобальной циркуляции атмосферы и океана) огромное количество данных для которых разработаны специальные форматы и софт. Это позволяет без особого труда ворочать террабайтами :) Неужели в биоинформатике такого еще нет?

Date: 2011-03-09 10:43 am (UTC)
From: [identity profile] progenes.livejournal.com
Есть конечно. Но это уже частично обработанные результаты, а задача стоит пересчитать кое-что. То есть стояла задача. Я уже сообразила, что разработать специальный софт мне явно слабо. Поэтому главное сейчас донести до начальства наши возможности.

Date: 2011-03-09 10:30 am (UTC)
From: [identity profile] victor-zagorski.livejournal.com
Коллега правильно сказал, для норм. программиста задача элементарная.

Date: 2011-03-09 10:31 am (UTC)
From: [identity profile] giggster.livejournal.com
а я б прі відє такої формули, пішов би наївся б гороху і плюнув на все. раптом сама порахується.

Date: 2011-03-09 10:46 am (UTC)
From: [identity profile] progenes.livejournal.com
та от да. я втомилась, поки її набрала.

Date: 2011-03-09 10:42 am (UTC)
From: [identity profile] bulochnikov.livejournal.com
=Excel есть ограничение по количеству ячеек в таблицах?=

У Екселя 2008 и 2010 нет. Но у всех 32х битных Экселей есть ограничение по использованию памяти. Примерно в 2 гигабайта. Если переполнить, начинает ругаться и виснет.
У 64х битного Екселя 2010 никаких ограничений нет. Но для его установки надо 64хбитную Винду и соответственно 64х битный комп.
И ещё: Оффис или весь 64х битный или весь 32х битный. Совместить 32х битный Ворд и 64х битный Эксель не получится.

Date: 2011-03-09 10:44 am (UTC)
From: [identity profile] progenes.livejournal.com
Во! Вот спасибо! Информация важная и исчерпывающая.

(no subject)

From: [identity profile] bulochnikov.livejournal.com - Date: 2011-03-09 10:48 am (UTC) - Expand

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 11:52 am (UTC) - Expand

(no subject)

From: [identity profile] slipa-ol.livejournal.com - Date: 2011-03-09 11:12 am (UTC) - Expand

(no subject)

From: [identity profile] drug123.livejournal.com - Date: 2011-03-11 05:09 pm (UTC) - Expand

(no subject)

From: [identity profile] drug123.livejournal.com - Date: 2011-03-11 05:12 pm (UTC) - Expand

Date: 2011-03-09 10:47 am (UTC)
From: [identity profile] kondybas.livejournal.com
А хто і чим формує ці звіти? Думаю, що настукать в рєпу оператору машинного доїння секвенування обійдеться дешевше...

Date: 2011-03-09 11:13 am (UTC)
From: [identity profile] toi-samyi.livejournal.com
alles automatisch

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 11:51 am (UTC) - Expand

Date: 2011-03-09 10:51 am (UTC)
From: [identity profile] zhuk-s.livejournal.com
Версия MS Office какая? До 2003 включительно были ограничения на количество ячеек по горизонтали 256, по вертикали, кажется, 65536. С 2007 ограничения сняли, но там по размеру файла засада может быть.

Date: 2011-03-09 10:53 am (UTC)
From: [identity profile] mininand.livejournal.com
срочно пересылаю Ваш пост биоинформатикам-преподам, вот чему надо учить студентов!)))

Date: 2011-03-09 10:57 am (UTC)
From: [identity profile] zametilprosto.livejournal.com
Как минимум - аксесс. Хотя 300 гигов и для аксесса крутовато :). Впрочем, тут важно знать количество строк.

А пересчеты сложные? И сами представляете КАК считать?

Date: 2011-03-09 11:54 am (UTC)
From: [identity profile] progenes.livejournal.com
И сами представляете КАК считать? %-) нууу, приблизительно очень. Вот количество строк (ридов) и надо считать :-) По тем формулам, что выше.

(no subject)

From: [identity profile] zametilprosto.livejournal.com - Date: 2011-03-09 01:58 pm (UTC) - Expand

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 02:17 pm (UTC) - Expand

(no subject)

From: [identity profile] zametilprosto.livejournal.com - Date: 2011-03-09 02:22 pm (UTC) - Expand

Date: 2011-03-09 10:58 am (UTC)
From: [identity profile] melkiythegreat.livejournal.com
Матлаб хорошо понимает екселевские файлы. И хорошо их считает.

ага :-)))

Date: 2011-03-09 11:12 am (UTC)
From: [identity profile] toi-samyi.livejournal.com
за что боролись, на то и напоролись
теперь человек специально обученный нужен.
шоб с базами работать

Date: 2011-03-09 11:17 am (UTC)
From: [identity profile] vigna.livejournal.com
хе-хе, у меня то же самое был недавно, когда я получила иллюминовские данные (120 Гб, каждый отдельный файл по 20). С двумя задачками я уже сдалась программистам, с третьей пока пытаюсь сама колупаться, но результат немного предсказуем, как говорится...

Date: 2011-03-09 12:56 pm (UTC)
From: [identity profile] progenes.livejournal.com
ну я понимаю. я начинала с анализов первых ESTs (ручками чистила сиквенсы и контиги) и макроэрреев. Потом были олиго-чипы и Agilent, которые я все еще могу в Excele считать. То есть нельзя сказать, что совсем уж не понимаю, что хочу. Но в таком чудовищном количестве даных я слабо ориентируюсь, где там треш-hold проводить.

Date: 2011-03-09 12:41 pm (UTC)
From: [identity profile] ptitza.livejournal.com
Горох? Как Мендель?? Или на огороде для личного употребления в салате Ольвье?

Date: 2011-03-09 12:42 pm (UTC)
From: [identity profile] progenes.livejournal.com
как Мендель :-) мутанты и трансгены.

(no subject)

From: [identity profile] ptitza.livejournal.com - Date: 2011-03-09 12:47 pm (UTC) - Expand

(no subject)

From: [identity profile] progenes.livejournal.com - Date: 2011-03-09 12:48 pm (UTC) - Expand

(no subject)

From: [identity profile] ptitza.livejournal.com - Date: 2011-03-09 12:56 pm (UTC) - Expand

Date: 2011-03-09 01:21 pm (UTC)
From: [identity profile] kelavrik-0.livejournal.com
У Excel'я всегда было ограничение: 255 в ширину и 65535 в вышину.
Если файлы имеют расширение .csv, то их по умолчанию открывает Excel, хотя это простые текстовые файлы, в которых ячейки разделены точкой с запятой (англ стандарт) или запятой (рос стандарт). Сам регулярно такие делаю и на некоторых объектах не укладываюсь.

Date: 2011-03-09 01:50 pm (UTC)
From: [identity profile] toothedgoo.livejournal.com
Вон медики тоже пугаются объёмов данных и собираются еще сильнее пугаться. 200Гб в секунду томографы следующего поколения будут выдавать.
http://www.ted.com/talks/anders_ynnerman_visualizing_the_medical_data_explosion.html

Date: 2011-03-09 04:01 pm (UTC)
From: [identity profile] aufrichtiger.livejournal.com
На самом деле, вполне похоже на типичную ETL (http://en.wikipedia.org/wiki/Extract,_transform,_load)задачу, как раз, чем мы занимаемся. У нас, правда, с пространственной составляющей. И программисты при наличии какого-нибудь ETL софта нафиг не нужны - ты просто составляешь цепочку действий, тестируешь на паре файлов (или сотне записей), потом запускаешь на все сразу и идешь пить кофе (или едешь в отпуск).

Date: 2011-03-09 07:19 pm (UTC)
From: [identity profile] interruptor.livejournal.com
у LibreOffice (3.3) теж розширили до мільйона чи то стовпчики чи то рядки.. Але якщо ще конвертувати - то точно загнутися можна.
Хоча якщо CSV, то їх саме у LibreOffice зручно відкривати напряму - розпізнає.

І взагалі правильна була порада про бази даних - все ж більш підходящий формат. Але не привід програмістам брати з бюджету сотні тисяч на платні ;)

Date: 2011-03-09 07:41 pm (UTC)
From: [identity profile] tenrousei.livejournal.com
формула про вероятность :) а что именно вас в этой формуле интересует? а то статистика - это моя главная университетская специализация :)

Date: 2011-03-09 08:05 pm (UTC)
From: [identity profile] blog.mykola.org (from livejournal.com)
Я для Shao, коли він наштовхнувся на аналогічні обмеження, спеціальний маленький web-сервіс написав. Якщо сильно потрібно - можу і для тебе зробити :-)

Date: 2011-03-09 09:39 pm (UTC)
From: [identity profile] stanpolozov.livejournal.com
Слушай, я не читал все комменты, возможно кто то уже такое написал:

А ты в гугловые таблицы не пробовала ЭТО загрузить?
Может, всем клаудом навалиться?
:-)

Только смотри, гугль не поломай, а то всем будет плохо...
;-)

Date: 2011-03-11 02:29 am (UTC)
From: [identity profile] imbg.livejournal.com
Функция vlookup помогает в экселе выстроить более менее нужные сравнивалки. Т.е. если на разных листах - списки экспрессии разных генов, и хочется их на один листок свалить, да чтоб они сами и выравнялись по названию. Подробнее и упрощенно - по ссылке: http://www.planetaexcel.ru/tip.php?aid=26

Может поможет, хотя я таких огромных массивов не просчитывал. максимум только gene-arrays.

Date: 2011-03-16 12:10 am (UTC)
From: [identity profile] rusoexpato.livejournal.com
Почему-то думал, что люди занимающиеся биоинформатикой хоть чуть-чуть но умеют программировать. =)

На самом деле, можно взять Python (это такой язык типа бейсика, но удобнее) и написать действительно очень простой код пересчитывающий нужные данные из таблиц. И программистом для этого быть совсем не обязательно.

Если есть желание, могу рассказать и показать как. В плане программирования всё очень просто.

Profile

progenes: (Default)
progenes

March 2025

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 29th, 2025 02:29 pm
Powered by Dreamwidth Studios