Надо же

Jun. 6th, 2011 02:42 pm
progenes: (Default)
[personal profile] progenes
Сижу разбираюсь с алгоритмами для сбивки де ново секвенирования. Читаю статьи, мало чего смыслю, пробую разобраться. В Nature methods обзор алгоритмов и что я вижу? Ссылаются на википедию! А вы говорите!

Черт, кто мне может в терминологии, приближенной к олигофренам, объяснить разницу между
1. SOAPdenovo (Bruijn graph short read Assembler) пайплайн
2. TGICL c встроенным CAP3 assembler,
3. также особенности ассемблера MIRA.

Date: 2011-06-06 02:00 pm (UTC)
From: [identity profile] jtell.livejournal.com
Привет.

Если не секрет, зачем вам алгоритмы multi-alignment-а ? Вы планируете использовать (или уже используете) new generation sequencing в вашем research-е, или просто интересно ?

У нас (по-работе) все цепи днк получены Sanger-ом (electropherogram), но некоторые клиенты планируют начать секвенсировать новыми сиквенсерами (типа Illumina..). Для нас в этом много челенджа, начиная с того, как записать столько данных (надо переделывать модель данных), кончая именно проблемой построения одного (или нескольких) "цепей-конценсуса".

Date: 2011-06-06 02:04 pm (UTC)
From: [identity profile] progenes.livejournal.com
мы секвенируем транскриптомикс. Просеквенировать транскрипты пол-дела. Проблема в том, что различные алгоритмы сбивок в контиги при одних и тех же сиквенсах дают различную картину. Я, как биолог, интерпретирую результаты. Чтобы понять, что и как мне интерпретировать, надо бы прикинуть, где зарыты проблемы эссемблинга. А их, как оказалось, очень много. Практически все в них и упирается.

Date: 2011-06-06 02:19 pm (UTC)
From: [identity profile] jtell.livejournal.com
Понятно. Кроме assembly есть ещё ошибки самого секвенсора (например стречи (stretch) А - когда подрят идут "много А", секвенсер иногда добавляет лишние нуклеотиды).

У нас assembly часто делается "вручную" (особенно в приложениях, где каждая мутация важна, типа донорские анализы HLA, иногда в HIV drug resistance). Там оператор видит электроферограммы, видит alignment и вручную его "подкручивает". Но всё это возможно только когда есть десяток цепей, а не несколько сотен.

У нас сделали вывод, что для рутинных анализов new generation sequencing ещё не достаточно развит.

Date: 2011-06-06 04:13 pm (UTC)
From: [identity profile] vigna.livejournal.com
А у тебя какие данные, 454 или иллюмина?

Date: 2011-06-07 04:10 pm (UTC)
From: [identity profile] vigna.livejournal.com
Тогда МЫЛО тебе точно не пойдёт, оно для коротких ридов.
Мирой мои данные прилично собрались, но сама программа, гм, не для средних умов. Поэтому собирала не я, а отдельный биоинформатик :)
CAP3 я сама пользовалась, вполне успешно, но имхо, на 454 данных он затребует слишком много памяти (он был сделан лет 20 назад, для сэнгеровских данных).
А чего Newbler не попробовать? Он достаточно простой и родной для 454.
Кстати, вот: http://www.biomedcentral.com/1471-2164/11/571

Profile

progenes: (Default)
progenes

March 2025

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 20th, 2025 12:51 am
Powered by Dreamwidth Studios