Сильно

Mar. 9th, 2011 11:12 am
progenes: (Default)
[personal profile] progenes
Получила результаты экспрессионного анализа, секвенирование РНК по методу 454. 48 проб. На выходе увесистый ZIP, в распакованом виде около 300 гигов (но я все еще не распаковала), а это уже около 2000 (2 тыщ) штук разнообразных файлов, преимущественно Excel, которые при открытии весело сообщают, что ячейки в таблице закончились.

readmy доброжелательно гласит:
The probability of gene A expressed equally between two samples can be calculated with the following formula:

2x(1-p(i|x))

(if p(i|x)>0.5)

p(i|x)=(N2/N1)y*(x+y)!/x!y!(1+N2/N1) (x+y+1)

НЕРВНО РЖУ. Даже если открывать файлы, чтобы посмотреть, что там в них внутри, не вникая в содержание, то по минуте на каждый файл - это чистых 4 дня рабочего времени. И это только глянуть мельком! Мне кажется, биоинформатика уже укусила себя за хвост.

Пысы. А у нового Excel есть ограничение по количеству ячеек в таблицах? И о чем эта формула вообще? УМОРА! Я вот даже еще совершенно не огорчилась, я просто ошарашена. Моя задача - это все ПЕРЕСЧИТАТЬ! Пойду лучше горох подготовлю на высадку.
Page 1 of 3 << [1] [2] [3] >>

Date: 2011-03-09 10:20 am (UTC)
From: [identity profile] michael.ul.myopenid.com (from livejournal.com)
Кто ж такое руками открывает? Это автоматизации требует, конечно. Ну, ничего, физики с астрономами и с большими объёмами работают.

Date: 2011-03-09 10:22 am (UTC)
From: [identity profile] progenes.livejournal.com
Ну я обломалась на третьем файле. Надо идти сдаваться программистам.

Date: 2011-03-09 10:25 am (UTC)
From: [identity profile] michael.ul.myopenid.com (from livejournal.com)
А в вашей группе есть программисты или искать где будете?

Date: 2011-03-09 10:28 am (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
Ну, в экселевском формате такое, конечно, хранить неразумно, следует хотя бы в CSV, или HDF, или какие там специализованные форматы.

А вы уверены, что это именно xls, а не cvs?

Date: 2011-03-09 10:29 am (UTC)
From: [identity profile] magik-ocean.livejournal.com
При таких объемах данных экселевские файлики, конечно, не катят :)) У нас (в моделировании глобальной циркуляции атмосферы и океана) огромное количество данных для которых разработаны специальные форматы и софт. Это позволяет без особого труда ворочать террабайтами :) Неужели в биоинформатике такого еще нет?

Date: 2011-03-09 10:30 am (UTC)
From: [identity profile] victor-zagorski.livejournal.com
Коллега правильно сказал, для норм. программиста задача элементарная.

Date: 2011-03-09 10:31 am (UTC)
From: [identity profile] giggster.livejournal.com
а я б прі відє такої формули, пішов би наївся б гороху і плюнув на все. раптом сама порахується.

Присоединяюсь к вопросу

Date: 2011-03-09 10:37 am (UTC)
From: [identity profile] http://users.livejournal.com/alkor_/
Excel любит под себя подгребать всякие условно "свои" расширения. Если таки cvs, то я бы пробовал открыть текстовым редактором (не Notepade'ом!)...

Date: 2011-03-09 10:40 am (UTC)
From: [identity profile] progenes.livejournal.com
В институте есть, но у меня с ними проблема. Я им гораздо более простые задачи пыталась донести и это было непросто. И тогда я точно знала, что я хочу. А тут и задача нетривиальная и я сама еще до конца не понимаю, что мне надо.

Date: 2011-03-09 10:41 am (UTC)
From: [identity profile] progenes.livejournal.com
Уверена. И это еще не все. Есть такие хитрые форматы, который и гугль не знает. *.fq Пробовала текстовым редактором взглянуть - ни фига.

Date: 2011-03-09 10:42 am (UTC)
From: [identity profile] bulochnikov.livejournal.com
=Excel есть ограничение по количеству ячеек в таблицах?=

У Екселя 2008 и 2010 нет. Но у всех 32х битных Экселей есть ограничение по использованию памяти. Примерно в 2 гигабайта. Если переполнить, начинает ругаться и виснет.
У 64х битного Екселя 2010 никаких ограничений нет. Но для его установки надо 64хбитную Винду и соответственно 64х битный комп.
И ещё: Оффис или весь 64х битный или весь 32х битный. Совместить 32х битный Ворд и 64х битный Эксель не получится.

Date: 2011-03-09 10:43 am (UTC)
From: [identity profile] progenes.livejournal.com
Есть конечно. Но это уже частично обработанные результаты, а задача стоит пересчитать кое-что. То есть стояла задача. Я уже сообразила, что разработать специальный софт мне явно слабо. Поэтому главное сейчас донести до начальства наши возможности.

Date: 2011-03-09 10:44 am (UTC)
From: [identity profile] progenes.livejournal.com
Во! Вот спасибо! Информация важная и исчерпывающая.

Date: 2011-03-09 10:46 am (UTC)
From: [identity profile] progenes.livejournal.com
та от да. я втомилась, поки її набрала.

Date: 2011-03-09 10:47 am (UTC)
From: [identity profile] kondybas.livejournal.com
А хто і чим формує ці звіти? Думаю, що настукать в рєпу оператору машинного доїння секвенування обійдеться дешевше...

Date: 2011-03-09 10:48 am (UTC)
From: [identity profile] bulochnikov.livejournal.com
Не совсем.
Забыл сказать, что ограничения всё же есть:
Строк не более 1600000 а столбцов что то около 16000 (или больше? Точно не помню). Но столько вы никогда не заполните. Тем более через клавиатуру. Так что можно считать, что ограничений нет.

Date: 2011-03-09 10:51 am (UTC)
From: [identity profile] zhuk-s.livejournal.com
Версия MS Office какая? До 2003 включительно были ограничения на количество ячеек по горизонтали 256, по вертикали, кажется, 65536. С 2007 ограничения сняли, но там по размеру файла засада может быть.

Date: 2011-03-09 10:53 am (UTC)
From: [identity profile] mininand.livejournal.com
срочно пересылаю Ваш пост биоинформатикам-преподам, вот чему надо учить студентов!)))

Date: 2011-03-09 10:57 am (UTC)
From: [identity profile] zametilprosto.livejournal.com
Как минимум - аксесс. Хотя 300 гигов и для аксесса крутовато :). Впрочем, тут важно знать количество строк.

А пересчеты сложные? И сами представляете КАК считать?

Date: 2011-03-09 10:58 am (UTC)
From: [identity profile] melkiythegreat.livejournal.com
Матлаб хорошо понимает екселевские файлы. И хорошо их считает.

ага :-)))

Date: 2011-03-09 11:12 am (UTC)
From: [identity profile] toi-samyi.livejournal.com
за что боролись, на то и напоролись
теперь человек специально обученный нужен.
шоб с базами работать

Date: 2011-03-09 11:12 am (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
Наверняка формат данных какой-то проприетарной, а то и вообще, самопальной, использующейся только в паре институтов, поделки. Экселевские же файлы, скорее всего, — автоматически сгенерированные отчёты, «на отвали» для любопытствующих посмотреть и пересчитать. Ищите, нет ли описания форматов или инструкций, чем обрабатывать данные. Иначе ситуацию можно охарактеризовать либо как глупость, либо как намеренное запутывание — не знаю, что в научной среде считается предосудительнее.

Date: 2011-03-09 11:12 am (UTC)
From: [identity profile] slipa-ol.livejournal.com
починаючи з Excel 2007 робочий лист має 1 048 576 рядків і 16 384 стовбця (більше 17 міліардів клітинок). в 2003 було 65536 і 256 відповідно.

Date: 2011-03-09 11:13 am (UTC)
From: [identity profile] toi-samyi.livejournal.com
alles automatisch

Date: 2011-03-09 11:17 am (UTC)
From: [identity profile] vigna.livejournal.com
хе-хе, у меня то же самое был недавно, когда я получила иллюминовские данные (120 Гб, каждый отдельный файл по 20). С двумя задачками я уже сдалась программистам, с третьей пока пытаюсь сама колупаться, но результат немного предсказуем, как говорится...
Page 1 of 3 << [1] [2] [3] >>

Profile

progenes: (Default)
progenes

March 2025

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 29th, 2025 05:38 pm
Powered by Dreamwidth Studios