reciprocal_smallest_distance является попарно алгоритм, который использует Ортология глобального выравнивания последовательностей и максимального правдоподобия эволюционный расстояние между последовательностями точно определяет ортологи между геномами.
Установка с архива
Скачать и разархивировать последней версии из GitHub:
CD ~
локон -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | тар xvz
Установите reciprocal_smallest_distance, убедившись, что использовать Python 2.7:
CD-версия reciprocal_smallest_distance
питон setup.py установить
Использование RSD найти Othologs
Следующие примеры команд демонстрируют основные способы запуска rsd_search. Каждый вызов требует rsd_search указав местоположение файла последовательности FASTA формате в течение двух геномов, называется запрос и тематические геномы. Их порядок является произвольным, но если вы используете опцию --ids, идентификаторы должны прийти из генома запроса. Вы также должны указать файл, чтобы написать результаты ортологов найденных алгоритма RSD. Формат выходного файла содержит один ортолог в строке. Каждая строка содержит порядковый идентификатор запроса, при условии последовательности идентификатор, и расстояние (рассчитанное по codeml) между последовательностями. Вы можете указать файл, содержащий идентификаторы, используя опцию --ids. Тогда RSD будет искать только ортологов для тех идентификаторов. Использование --divergence и --evalue, у вас есть возможность использовать различные пороги от дефолтов.
Получить помощь в том, чтобы запустить rsd_search, rsd_blast или rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Найти ортологи между всеми последовательностями в запросе и подлежащих геномов, используя расхождения по умолчанию и пороги Evalue
примеры rsd_search -q / геномы / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa \
--subject генома = примеры / геномы / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa \
-о Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Найти ортологи с использованием нескольких дивергенции и Evalue пороги нестандартные
примеры rsd_search -q / геномы / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa \
--subject генома = примеры / геномы / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa \
-о Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt \
--de 0,2 1e-20 --de 0,5 0,00001 0,8 0,1 --de
Это не нужно форматировать файл FASTA BLAST для вычисления или BLAST-парад, потому что rsd_search сделает это за вас.
Однако, если вы планируете запускать rsd_search несколько раз для одних и тех же геномов, особенно для больших геномов, вы можете сэкономить время, используя rsd_format в preformatting в FASTA файлы и rsd_blast для предварительного вычисления доменной парад. При запуске rsd_blast, убедитесь, что использовать --evalue как большой, как крупнейшего Evalue порога вы собираетесь дать rsd_search.
Вот как отформатировать пару FASTA файлов на месте:
rsd_format -g примеры / геномы / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g примеры / геномы / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
А вот как форматировать файлы FASTA, положив результаты в другой каталог (текущий каталог в данном случае)
rsd_format -g примеры / геномы / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -g примеры / геномы / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
Вот, как вычислить прямое и обратное взрыва хиты (с помощью Evalue по умолчанию):
rsd_blast -v -q примеры / геномы / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa \
--subject генома = примеры / геномы / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa \
--forward хитов q_s.hits --reverse-парад s_q.hits
Вот, как вычислить прямого и обратного взрыв наносит rsd_search, используя геномы, которые уже были отформатированы для взрыва и не по умолчанию Evalue
rsd_blast -v -q Mycoplasma_genitalium.aa \
--subject генома = Mycobacterium_leprae.aa \
--forward хитов q_s.hits --reverse-парад s_q.hits \
--no-формате --evalue 0,1
Найти ортологи между всеми последовательностями в запросе и предметных геномов с использованием геномов, которые уже были отформатированы для взрыва
rsd_search -q Mycoplasma_genitalium.aa \
--subject генома = Mycobacterium_leprae.aa \
-о Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt \
--no-формате
Найти ортологи между всеми последовательностями в запросе и предметных геномов с использованием хитов, которые уже были вычислены. Обратите внимание, что --no-формат включены, потому что, так как взрыв хитов уже вычислены геномы не должны быть отформатированы для взрыва.
rsd_search -v --query генома Mycoplasma_genitalium.aa \
--subject генома = Mycobacterium_leprae.aa \
-о Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt \
--forward хитов q_s.hits --reverse-парад s_q.hits --no-формате
Найти ортологи для конкретных последовательностей в геноме запроса. Для нахождения ортологи всего за несколько последовательностей, используя --no-BLAST-кэш может ускорить вычисление. YMMV.
примеры rsd_search -q / геномы / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa \
--subject генома = примеры / геномы / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa \
-О примеры / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt \
--ids примеры / Mycoplasma_genitalium.aa.ids.txt --no-BLAST-кэш
Выходные форматы
Ортологи могут быть сохранены в различных форматах, используя --outfmt возможность rsd_search. Формат по умолчанию, --outfmt -1, относится к --outfmt 3. Вдохновленный UniProt DAT файлов, набор ортологов начинается с параметров линии, то есть 0 или более ортолог линии, то есть лицевой линии. В использовать параметры являются имя запроса геном, геном имя субъекта, порог расхождение, и порог Evalue. Каждый ортолог находится на одной линии перечне последовательностей идентификатор запроса, при условии последовательности ID, а максимальная оценка расстояния правдоподобия. Этот формат может представлять ортологи для нескольких наборов параметров в одном файле, а также наборов параметров без каких-либо ортологов. Поэтому он подходит для использования с rsd_search при указании нескольких дивергенции и Evalue пороги.
Вот пример, содержащий комбинации 2 параметра, один из которых не имеет ортологи:
ПА \ tLACJO \ tYEAS7 \ t0.2 \ t1e-15
ИЛИ \ tQ74IU0 \ tA6ZM40 \ t1.7016
ИЛИ \ tQ74K17 \ tA6ZKK5 \ t0.8215
//
ПА \ tMYCGE \ tMYCHP \ t0.2 \ t1e-15
//
Оригинальный формат РСД, --outfmt 1, предназначен для обеспечения обратной совместимости. Каждая строка содержит ортолог, представленное как субъект последовательности ID, запроса последовательности ID и оценки максимального расстояния правдоподобия. Это может представлять только один набор ортологов в файле.
Пример:
A6ZM40 \ tQ74IU0 \ t1.7016
A6ZKK5 \ tQ74K17 \ t0.8215
Также для обеспечения обратной совместимости это формат, используемый внутренне Roundup (http://roundup.hms.harvard.edu/), который, как оригинальном формате RSD, кроме Идентификатор столбца последовательности запроса перед предметом последовательности ID.
Пример:
Q74IU0 \ tA6ZM40 \ t1.7016
Q74K17 \ tA6ZKK5 \ t0.8215
Требования
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- Kalign 2,04
Комментарии не найдены