progenes: (Default)
progenes ([personal profile] progenes) wrote2011-06-06 02:42 pm

Надо же

Сижу разбираюсь с алгоритмами для сбивки де ново секвенирования. Читаю статьи, мало чего смыслю, пробую разобраться. В Nature methods обзор алгоритмов и что я вижу? Ссылаются на википедию! А вы говорите!

Черт, кто мне может в терминологии, приближенной к олигофренам, объяснить разницу между
1. SOAPdenovo (Bruijn graph short read Assembler) пайплайн
2. TGICL c встроенным CAP3 assembler,
3. также особенности ассемблера MIRA.

[identity profile] jtell.livejournal.com 2011-06-06 02:00 pm (UTC)(link)
Привет.

Если не секрет, зачем вам алгоритмы multi-alignment-а ? Вы планируете использовать (или уже используете) new generation sequencing в вашем research-е, или просто интересно ?

У нас (по-работе) все цепи днк получены Sanger-ом (electropherogram), но некоторые клиенты планируют начать секвенсировать новыми сиквенсерами (типа Illumina..). Для нас в этом много челенджа, начиная с того, как записать столько данных (надо переделывать модель данных), кончая именно проблемой построения одного (или нескольких) "цепей-конценсуса".

[identity profile] progenes.livejournal.com 2011-06-06 02:04 pm (UTC)(link)
мы секвенируем транскриптомикс. Просеквенировать транскрипты пол-дела. Проблема в том, что различные алгоритмы сбивок в контиги при одних и тех же сиквенсах дают различную картину. Я, как биолог, интерпретирую результаты. Чтобы понять, что и как мне интерпретировать, надо бы прикинуть, где зарыты проблемы эссемблинга. А их, как оказалось, очень много. Практически все в них и упирается.

[identity profile] jtell.livejournal.com 2011-06-06 02:19 pm (UTC)(link)
Понятно. Кроме assembly есть ещё ошибки самого секвенсора (например стречи (stretch) А - когда подрят идут "много А", секвенсер иногда добавляет лишние нуклеотиды).

У нас assembly часто делается "вручную" (особенно в приложениях, где каждая мутация важна, типа донорские анализы HLA, иногда в HIV drug resistance). Там оператор видит электроферограммы, видит alignment и вручную его "подкручивает". Но всё это возможно только когда есть десяток цепей, а не несколько сотен.

У нас сделали вывод, что для рутинных анализов new generation sequencing ещё не достаточно развит.

[identity profile] vigna.livejournal.com 2011-06-06 04:13 pm (UTC)(link)
А у тебя какие данные, 454 или иллюмина?

[identity profile] vigna.livejournal.com 2011-06-07 04:10 pm (UTC)(link)
Тогда МЫЛО тебе точно не пойдёт, оно для коротких ридов.
Мирой мои данные прилично собрались, но сама программа, гм, не для средних умов. Поэтому собирала не я, а отдельный биоинформатик :)
CAP3 я сама пользовалась, вполне успешно, но имхо, на 454 данных он затребует слишком много памяти (он был сделан лет 20 назад, для сэнгеровских данных).
А чего Newbler не попробовать? Он достаточно простой и родной для 454.
Кстати, вот: http://www.biomedcentral.com/1471-2164/11/571