Сильно

Mar. 9th, 2011 11:12 am
progenes: (Default)
[personal profile] progenes
Получила результаты экспрессионного анализа, секвенирование РНК по методу 454. 48 проб. На выходе увесистый ZIP, в распакованом виде около 300 гигов (но я все еще не распаковала), а это уже около 2000 (2 тыщ) штук разнообразных файлов, преимущественно Excel, которые при открытии весело сообщают, что ячейки в таблице закончились.

readmy доброжелательно гласит:
The probability of gene A expressed equally between two samples can be calculated with the following formula:

2x(1-p(i|x))

(if p(i|x)>0.5)

p(i|x)=(N2/N1)y*(x+y)!/x!y!(1+N2/N1) (x+y+1)

НЕРВНО РЖУ. Даже если открывать файлы, чтобы посмотреть, что там в них внутри, не вникая в содержание, то по минуте на каждый файл - это чистых 4 дня рабочего времени. И это только глянуть мельком! Мне кажется, биоинформатика уже укусила себя за хвост.

Пысы. А у нового Excel есть ограничение по количеству ячеек в таблицах? И о чем эта формула вообще? УМОРА! Я вот даже еще совершенно не огорчилась, я просто ошарашена. Моя задача - это все ПЕРЕСЧИТАТЬ! Пойду лучше горох подготовлю на высадку.

Date: 2011-03-09 10:41 am (UTC)
From: [identity profile] progenes.livejournal.com
Уверена. И это еще не все. Есть такие хитрые форматы, который и гугль не знает. *.fq Пробовала текстовым редактором взглянуть - ни фига.

Date: 2011-03-09 11:12 am (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
Наверняка формат данных какой-то проприетарной, а то и вообще, самопальной, использующейся только в паре институтов, поделки. Экселевские же файлы, скорее всего, — автоматически сгенерированные отчёты, «на отвали» для любопытствующих посмотреть и пересчитать. Ищите, нет ли описания форматов или инструкций, чем обрабатывать данные. Иначе ситуацию можно охарактеризовать либо как глупость, либо как намеренное запутывание — не знаю, что в научной среде считается предосудительнее.

Date: 2011-03-09 11:19 am (UTC)
From: [identity profile] vigna.livejournal.com
.fq - это fasta + quality, текстовый редактор должен его открывать легко, но только если файл не слишком большой.

Date: 2011-03-09 11:55 am (UTC)
From: [identity profile] progenes.livejournal.com
Ну я догаладась, что это фаста. Но сильно удивилась, что это за фаста под три гига, которую ни один мой текстовой редактор не берет.

Date: 2011-03-09 09:34 pm (UTC)
From: [identity profile] vigna.livejournal.com
Так это, я думаю, потому что он огромный такой. Больше Гб для текстовых редакторов уже проблема.

Date: 2011-03-09 11:22 am (UTC)
From: [identity profile] vigna.livejournal.com
скачай себе триал-версию этого: http://www.clcbio.com/index.php?id=1240
как я называю, "сборка геномов для блондинок" :) сама пользуюсь :) fq он открывает, памяти не очень много требует (у нас работает на ноуте с 4 Гб оперативки).

Date: 2011-03-09 11:57 am (UTC)
From: [identity profile] progenes.livejournal.com
о, спасибо. Тут понимаешь, собрать еще пол-дела. Тут сравнительный экспресионный анализ. Мне ж чего особенно смешно - это забивание гвоздей электронным микроскопом.

Date: 2011-03-09 11:22 am (UTC)
From: [identity profile] red-rat-catcher.livejournal.com
гугль знает http://en.wikipedia.org/wiki/FASTQ_format

http://www.google.ru/#sclient=psy&hl=ru&newwindow=1&q=FASTQ+format&aq=0&aqi=g1&aql=&oq=&pbx=1&fp=140752a2719affba

Date: 2011-03-09 11:58 am (UTC)
From: [identity profile] progenes.livejournal.com
хехе. я в курсе, что это. просто это фасто тривиальными программами не открываеццо. ну и ладно.

Date: 2011-03-09 11:59 am (UTC)
From: [identity profile] red-rat-catcher.livejournal.com
там выше вроде сталкивающиеся уже и програмку показали :)

Profile

progenes: (Default)
progenes

March 2025

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 4th, 2026 08:31 pm
Powered by Dreamwidth Studios