Вопросы с тегами [bioinformatics]

1

голосов
1

ответ
375

Просмотры

Algorithm to to Cluster Similar Strings in Python?

Я работаю над сценарием, который в настоящее время содержит несколько списков последовательностей ДНК (каждый список имеет различное количество последовательностей ДНК), и мне нужно сгруппировать последовательности в каждом списке на основе расстояние Хемминг подобия. Моя текущая реализация этого (очень грубо на данный момент) извлекает первую последовательность в списке и вычисляет расстояние Хемминга каждой последующей последовательности. Если это в пределах определенного расстояния Хэмминга, он добавляет его в новый список, который впоследствии используется для удаления последовательности из исходного списка, а также хранить подобные последовательности в defaultdict. Смотрите мое текущее выполнение моего кода ниже: Защита hamming_dist (sequence1, sequence2): "" "Вычисляет расстояние Хэмминга между 2 последовательностями """ утверждает LEN (sequence1) == Len (sequence2) возвращает сумму (sequence1 = sequence2 для sequence1 , Я прочитал над StackOverflow / StackExchange вопросов, чтобы увидеть, если другие люди столкнулись с моей проблемой и подобных вопросов, которые я нашел, многие другие люди упоминали об использовании алгоритмов, таких как алгоритм K-Means, метод Маркова кластеризации, иерархии кластеров и т.д. Я не слишком хорошо знакомы с каким-либо из этих методов, кроме метода K-средних, который требует номера, а не строк. Какой метод кластеризации (s) вы могли бы предложить мне реализовать группироваться сходные последовательности ДНК вместе, а также лучший способ реализовать свой предпочтительный метод выбора? Любые предложения будут высоко ценится! Марков метод кластеризации, иерархия кластеризация и т.д. Я не слишком хорошо знакомы с каким-либо из этих методов, кроме метода K-средних, который требует номера, а не строк. Какой метод кластеризации (s) вы могли бы предложить мне реализовать группироваться сходные последовательности ДНК вместе, а также лучший способ реализовать свой предпочтительный метод выбора? Любые предложения будут высоко ценится! Марков метод кластеризации, иерархия кластеризация и т.д. Я не слишком хорошо знакомы с каким-либо из этих методов, кроме метода K-средних, который требует номера, а не строк. Какой метод кластеризации (s) вы могли бы предложить мне реализовать группироваться сходные последовательности ДНК вместе, а также лучший способ реализовать свой предпочтительный метод выбора? Любые предложения будут высоко ценится!
1

голосов
1

ответ
239

Просмотры

FASTQC работает в командной строке, но не в питона подпроцесса (Java исключение)

Инструмент командной строки, я использую работает нормально при вызове его из командной строки Linux, но дает исключение, когда я называю его через модуль Python подпроцесс. Я посмотрел на предыдущих постах, связанных с этим, но ни один из них не решить, как он будет работать в командной строке, но не в Python. Это образец TRACEBACK, что я получаю: Исключение в потоке java.lang.Error «Thread-1»: Возможная фатальная ошибка: шрифты не найдено. на sun.font.SunFontManager.getDefaultPhysicalFont (SunFontManager.java:1236) в sun.font.SunFontManager.initialiseDeferredFont (SunFontManager.java:1100) в sun.font.SunFontManager.findOtherDeferredFont (SunFontManager.java:1037) в sun.font. SunFontManager.findDeferredFont (SunFontManager.java:1054) при sun.font.SunFontManager.findFont2D (SunFontManager.java:2256) при sun.font.SunFontManager. Я проверил, чтобы убедиться, что версия Java называется формой командной строки является таким же, как один называется использованием подпроцесса. Это может быть, что окружающая среда изменяется как-то при его запуске в подпроцессе, но как я могу гарантировать, что пакет шрифтов используются в Java? Я проверил, чтобы убедиться, что версия Java называется формой командной строки является таким же, как один называется использованием подпроцесса. Это может быть, что окружающая среда изменяется как-то при его запуске в подпроцессе, но как я могу гарантировать, что пакет шрифтов используются в Java?
matnguyen
1

голосов
0

ответ
174

Просмотры

dyld: Библиотека не загружается в Mac OS High Sierra

Я получаю следующее сообщение об ошибке при запуске Gemma (программное обеспечение используется в геномика) от MAC терминала (Моя система в настоящее время работает High Sierra) dyld: Библиотека не загружена: /opt/local/lib/libgsl.0.dylib Реферировано из: / Users / sv112 / Desktop / AssociationMapping / бен / почка Причина: изображение не найдено ERROR на родственной матрице здания GEMMA. Установка GSL (заварить установить GSL) не решить эту проблему. Я открыл файл Gemma (открывается как исполняемый файл UNIX) и его содержимое следующим образом: / Users / sv112 / Desktop / AssociationMapping / bin / Gemma; выход; MGM-Маккаскер-iMac1: ~ sv112 $ / Users / sv112 / Desktop / AssociationMapping / бен / почка; выход; dyld: Библиотека не загружен: /opt/local/lib/libgsl.0.dylib Реферировано от: / Users / sv112 / Desktop / AssociationMapping / бен / Gemma Причина: изображение не найдено Прервать ловушку: 6 выхода из системы Сохранение сеанса ... .. .copying общей истории ... ... сохранение истории ... усечения файлов история ... ... завершено. [Процесс завершен] Может кто-нибудь объяснить, каким образом эти два вопроса связаны между собой и разумное исправление? Может ли это быть просто проблема с наличием более старую версию программного обеспечения, или у него есть что-то делать с Mac?
shivija
1

голосов
0

ответ
51

Просмотры

Слияние двух chromsome тип коробки данных, которые имеют одно общее ребро

chr11 60000000 63500000 47500000 51500000 chr19 chr11 63500000 67500000 47500000 51500000 chr19 chr11 67500000 76000000 47500000 51500000 chr19 chr11 63500000 67500000 54000000 57000000 chr19 Каждая строка является так же, как прямоугольник в поле ах ~ у матрицы. (Х, у), (х, y_end), (x_end, у), (x_end, y_end) являются координатами 4 вершины коробки. Я хочу, чтобы получить эти строки: для двух строк (коробки) я и у, если их (х = х, x_end = x_end, y_end = у) или (у = у, y_end = y_end, x_end = х) получить две коробки а затем объединить в одну коробку мой ожидаемый результат:> разреш CHRA х x_end ChrB у y_end chr11 0 3000000 chr19 0 20000000 chr11 60000000 76000000 chr19 0 20000000 chr11 3000000 51500000 chr19 27000000 29500000 chr11 54500000 60000000 chr19 27000000 29500000 chr11 76000000 134500000 chr19 27000000 29500000 chr11 0 3000000 chr19 34500000 51500000 chr11 60000000 63500000 chr19 32500000 34500000 chr11 60000000 76000000 34500000 51500000 chr19 chr11 63500000 67500000 54000000 57000000 chr19 это фигура, чтобы объяснить вопрос (Каждая коробка представляют собой одну строку в поз). Я хочу, чтобы объединить соседние ящики в один прямоугольник большего размера коробки): Таким образом, вопрос можно упростить: как объединить эти соседние коробки? И это мой код (это неэффективно и пропустил некоторые окна, которые должны быть объединены.): #Find общих ребра и слейте для (я в 1:
J.Wan
1

голосов
0

ответ
25

Просмотры

Liftover собака canFam3 человеческой hg19

Привет мой вопрос относительно прост. Я конвертированы собака координаты человека с помощью УСК LiftOver. Это межгенные 200 базисные пункты, которые по-разному метилированных от нормальных собак к раковым собакам. Я конвертируюсь эти человеческие координаты и обнаружил, что многие из них совпадают с дифференциально метилированных областями, которые мы нашли в человеческой модели. Это хорошо сделать? Что я должен строгости проверки или изменения, МИН соотношение оснований, необходимых для перекрытия? И, наконец, эта программа принимает последовательность собаки и 200 базисных пунктов говорят, что по крайней мере 10% последовательности должна совпадать с областью в геноме человека? Я не видел достаточного ответа еще на сайте.
Alex Stuckel
1

голосов
1

ответ
156

Просмотры

Как совместить последовательность FASTA в соответствии с последовательностью ид?

У меня есть 9 FASTA файлов, представляющие секвенирование ДНК из 9 генов. Каждый файл FASTA содержит 121 последовательности, представляющие 121 штаммов. Название для каждой последовательности является идентификатором для каждого штамма. Тем не менее, в каждом файле, то идентификатор не отсортирован, например, в gene1.fasta:> 1 AAA> 16 TTT> 2 GGG ... В gene2.fasta:> 2 CCC> 34 AAA> 1 GGG ... Я чтобы изменить эти 9 генов, FASTA файлов в 121 штаммов FASTA файлов, в каждом файле, просто объединить 9 генов для одного штамма. Например, в strain1.fasta: AAAGGG в strain2.fasta: GGGCCC Как я могу сделать это в R?
Dong Yuan
1

голосов
0

ответ
56

Просмотры

Как я могу добавить несколько супругов моей родословной с использованием пакета Kinship2?

Я пытаюсь построить довольно сложные родословные с помощью пакета Kinship2 R. Большинство семей показывает высокий уровень кровных и нескольких супругов, как я могу показать, что на моей родословной. Это мой текущий сюжет ## ДФ данных
Marierose M. Mina
1

голосов
0

ответ
15

Просмотры

Создание нулевых последовательностей с gkmSVM для мыши генома MM10

Кто-нибудь пытался генерировать нулевой модели последовательностей ДНК у мышей с использованием пакета gkmSVM? Он отлично работает для человека, но для мыши нет. Я интересно, если любой из вас никогда не использовал этот пакет для мышей и имел такую ​​же проблему. Проблема ошибки при использовании функции genNullseqs есть: библиотека (gkmSVM) библиотека (BSgenome.Mmusculus.UCSC.mm10) библиотека (BSgenome.Mmusculus.UCSC.mm10.masked) библиотека (IRanges) геном = BSgenome.Mmusculus.UCSC.mm10 .masked fileBedBreaks = "Rep1.intersec.Rep2.cov.major2.sort.uniq.bed" fileFastaPos = "Rep1.intersec.Rep2.cov.major2.all.sort.uniq.bed.pos.fa" fileBedNeg = "Rep1 .intersec.Rep2.cov.major2.all.sort.uniq.Random.gkmSVM.bed»fileFastaNeg = "Rep1.intersec.Rep2.cov.major2.all.sort.uniq.Random.gkmSVM.fa" genNullSeqs (inputBedFN = fileBedBreaks, nMaxTrials = 5, xfold = 2,
fusion.slope
1

голосов
1

ответ
41

Просмотры

перебирать огромный текстовый файл: читать участки между двумя повторяющимися паттернами с помощью питону

Мне нужно, чтобы пройти через огромный (20GB, слишком большой для памяти) текстовый файл биологической последовательности DB GeneBank) и извлечь ту же информацию для каждой записи БД. и каждая запись начинается с линией LOCUS XYZ больше текста и заканчивается строкой //. В качестве примера: LOCUS 123 еще некоторых текстовых много строк некоторых более текстовых многих линий некоторых более текстовых многих строк некоторых более текста // LOCUS 231 еще некоторых текстовых много строк некоторых более текстовых многих линий некоторых более текстовых многих линий некоторых больше текста // LOCUS 312 еще некоторые текстовые много строк некоторых более текстовых многих линий некоторых более текстовых многих строк некоторых более текста // теперь есть способ сказать питону iterativeley прочитать соответствующие 3 порции этого файла в некоторые переменная вар. чтобы быть более точным: итерации 1:
user3305567
1

голосов
2

ответ
44

Просмотры

Как я могу получить этот вывод из FASTA файла без использования Biopython?

Мне нужно, чтобы получить результат, показанный ниже от FASTA файла, но wihtout с помощью BioPython. Кто-нибудь есть идеи? Это код, используя BioPython: от Bio импорта SeqIO записей = SeqIO.parse ( "Данные / assembledSeqs.fa", "FASTA") для г, в seq_record перечислить (записей): печать ( "Последовательность% d:" % я) печать ( "номер в:% d" % seq_record.seq.count ( "A")) печать ( "Количество языка C:% d" % seq_record.seq.count ( "C")) печать ( "Количество Джи :% d»% seq_record.seq.count ( "G")) печать ( "Количество Т в:% d" % seq_record.seq.count ( "Т")) печать () файл FASTA выглядит следующим образом:> chr12_9180206_ +: chr12_118582391 _ +: A1; 2 TOTAL_COUNTS: 115 семян: 4 К: 20 длина: 16 Количество Т-х: 17 Последовательность 2: Количество в А-х: 27 Количество Кассиопеяне: 31 Количество Джи: 12 Количество Т-х: 16 Последовательность 3: Количество в А-х: 31 Количество Кассиопеяне: 41 Количество Джи: 20 Число Т-х : 28 Я пытался, но я не могу получить тот же результат. Защиту count_bases (fasta_file_name): с открытым (fasta_file_name) в качестве file_content: для seqs в file_content: если seqs.startswith ( '>'): для I, в сл Перечислим ( '>'): печать ( "Последовательность% d:" % я) остальное: печать ( "номер в:% d" % seqs.count ( "A")) печать ( "Количество языка C:% d" % seqs.count ( "C")) печать ( "Количество Джи :% d»% seqs.count ( "G"
AT-User
1

голосов
0

ответ
36

Просмотры

Ошибка x86_64-рс-mingw64 компиляции программного обеспечения HMMER

Я использую Git для окон и сделать из шоколадных, но вопрос у меня есть я верю, при запуске сделать я получаю сообщение об ошибке, когда он входит в файл easel.c я получаю ошибку ниже на линии 39, которая #include Почему я получаю это ошибка? Я надеюсь, что кто-нибудь из HMMER может сказать мне. РЕДАКТИРОВАНИЕ ПОСЛЕ ДОБАВЛЕНИЯ syslog.h из здесь HMMER-3,2 $ сделать SUBDIR станковой CC easel.o easel.c: 39: 20: фатальная ошибка: syslog.h: Нет такого файла или каталога компиляции прекращается. сделать [1]: *** [Makefile: 521: easel.o] Ошибка 1 Марка: *** [Makefile: 87: все] Ошибка 2 правок: Теперь после того, как я добавил файл syslog.h от источника я получаю эти ошибки из файла esl_buffer.c. Интересно, если HMMER испытал это на Windows? HMMER-3,2 $ сделать SUBDIR мольберт CC esl_buffer.o esl_buffer.c: В функции 'esl_buffer_Close': esl_buffer.c: 523: 4: предупреждение: неявная декларация функции 'munmap'
Brian Wiley
1

голосов
0

ответ
38

Просмотры

Snakemake отказывается распаковывать функцию ввода, когда правило А является зависимость правила Б, но принимает его, когда правило А это последнее правило

У меня есть рабочий процесс snakemake для проекта метагеномика. В точке, в технологическом процессе, я карту Секвенирование ДНК считывает (либо одно- или спарены-конец), чтобы метагенома сборки, сделанные одним и тем же рабочим процессом. Я сделал функция входа соответствует руководству Snakemake для отображения как одного конца и парного конца считывает с одним правилом. как и импорт os.path Защиту get_binning_reads (маски): pathpe = ( "Данные / sequencing_binning_signals /" + wildcards.binningsignal + ".trimmed_paired.R1.fastq.gz ") pathse = (" данные / sequencing_binning_signals /" + wildcards.binningsignal +».trimmed.fastq.gz "), если os.path.isfile (pathpe) == True: возвращение { 'читает': расширение (" данные / sequencing_binning_signals / {} binningsignal .trimmed_paired.R {PE} .fastq.gz », РЕ = [1,2], binningsignal = wildcards.binningsignal)} Элиф os.path. журналы / bwa_backmap_samtools_ {assemblytype} _ {hostcode} .stdout "STDERR = "журналы / bwa_backmap_ {assemblytype} _ {hostcode} .stderr" оболочка:" BWA MEM -t {нити} {} {PARAMS input.reads} 2> {log.stderr} | samtools просмотра - @ 12 -b -o {Выход} 2> {log.samstderr}> {log.stdout}»Когда я делаю произвольное 'все-властвуй', как это рабочий процесс выполняется успешно правило allbackmapped: вход: расшириться. ( "данные / assembly_ {assemblytype} _binningsignals / {hostcode} / {} binningsignal .bam", binningsignal = BINNINGSIGNALS, assemblytype = ASSEMBLYTYPES, hostcode = HOSTCODES) Однако, когда файлы, созданные с помощью этого правила необходимы для последующих правил, как так: правило backmap_samtools_sort: входной сигнал: "данные / assembly_ {assemblytype} _binningsignals / {hostcode} / {binningsignal} .bam" выход: "
Laura
1

голосов
1

ответ
58

Просмотры

Как напечатать первые несколько записей с помощью SeqIO из Biopython

У меня есть файл FASTA, который имеет несколько сотен записей, но я пытаюсь вернуть таблицу только первые 20 записей (описание записи, длины AA, и название). Мой код не работает, и я хотел бы знать, как вернуть только первые 20 записей - предпочтительно в виде таблицы. Это мой питон код: # / USR / местные / бен / python3 импорта CGI импорта повторно образуют = cgi.FieldStorage () из Био импорта SeqIO для индекса, запись в Перечислять (SeqIO.parse ( "e_coli_k12_dh10b.faa", «FASTA! «)): печать (record.description, длина (record.seq))
L. Seu
1

голосов
1

ответ
43

Просмотры

Как соответствовать уникальным элементам в одном столбце и перечислить соответствующие значения из второго столбца

У меня есть файл в следующем формате: ENSG00000087510 ENST00000201031 TFAP2C transcription_factor protein_coding Где каждый столбец отделяется табуляцией. Как вы можете видеть, есть 5 колонок. Колонка 1 представляет собой список избыточных идентификаторов друг соответствие с другим уникальным идентификатором в колонке 2. Избыточные идентификаторы в столбце 1 разбросаны по всему файлу. Я попробовал следующую команду, чтобы создать уникальный список идентификаторов из первого столбца, но я не знаю, как сравнить его с второй колонкой. кот Chr20_gene_transcript_namelist.txt | вырезать -f 1 | сортировать | уник Я хочу, чтобы файл из двух столбцов: уникальные идентификаторы в колонке 1 со всеми идентификаторами они соответствуют в колонке 2. Например:
Cookie-san
1

голосов
0

ответ
29

Просмотры

Ода не решает уравнения правильно

Я совершенно новое с R и решения уравнений и тому подобное, но у меня есть задача университета, которая включает в себя дифференциальные уравнения и R, и я не могу сделать это правильно вообще ... `` `{г} библиотека (в desolve)` `` `` `{г} model9
Nastyuja
1

голосов
2

ответ
270

Просмотры

Добавить тег в bioperl DB :: SAM / BAM

У меня есть файл БАМ и использовать bioperl (Bio :: DB :: Сэм), чтобы работать с ним. Теперь я хотел бы спросить, есть ли возможность добавить теги выравнивания в этом файле? я использую мой $ итератор = $> кратко BAM особенности (-iterator => 1, -flags => {M_UNMAPPED => 0}); в то время как (мой $ ALIGN = $ iterator-> next_seq) {...} Переберите выровненный читает. Теперь я ищу VOR Anthing как $ align-> addTag (ключ => значение) до свидания
I3ilbo
1

голосов
1

ответ
1.3k

Просмотры

Выбор консервативных остатков в белке с помощью PyMOL сценария путем импорта списка остатков из текстового файла

Я хотел, чтобы выбрать определенные высоко консервативных остатков в белке (вычисленной с помощью механизма подсчета очков и перечисленных в текстовом файле - каждый остаток в одной строке), используя сценарий PyMOL. Сценарий PyMOL ниже, что я использую не работает. Я буду вам очень благодарен, если кто-то может помочь мне. Части работы скрипта прекрасно при запуске отдельно - сценарий PyMOL когда номер остатка упоминаются в сценарии без импорта списка из текстового файла и только сценария питона для чисел загрузки из файла в массив также отлично работает при запуске по отдельности. Но проблема наблюдается, когда она сочетается, как в моем сценарии ниже - когда номер остаток должен быть взят из массива, как я после импорта списка из текстового файла. Любая помощь приветствуется. Спасибо! #! / USR / бен / питон из PyMOL импорта ЦМД импорта строки cmd.load (»
user1886130
1

голосов
1

ответ
484

Просмотры

Проблема с Bio.Entrez и белка в Biopython 1,60

У меня возникли проблемы с использованием Bio.Entrez для поиска белка. Я делаю это: >>> ручка = Entrez.esearch (дб = «белок», термин = «инсулин и гомо») >>> запись = Entrez.read (ручка) Traceback (самый последний вызов последнего): Файл " "строка 1, в файле "/usr/lib/pymodules/python2.7/Bio/Entrez/__init__.py", строка 351, в прочитанной записи = handler.read (ручка) Файл" / USR / Lib / pymodules / python2.7 / Bio / Entrez / Parser.py», строка 169, в self.parser.ParseFile чтения (ручки) Файл "/usr/lib/pymodules/python2.7/Bio/Entrez/Parser.py", строка 307 в endElementHandler поднять RuntimeError (значение) RuntimeError: Поиск Backend не удалось: база данных не поддерживается: белок Я имею проблему с einfo () тоже проверить на это: >>> обработчик = Entrez.einfo (дб = «белок» ) >>> запись = Entrez.read (обработчик) Traceback (самый последний вызов последнего): Файл "", строка 1, в файле "/usr/lib/pymodules/python2.7/Bio/Entrez/__init__.py", строка 351, в прочитать запись = handler.read (ручка) Файл "/usr/lib/pymodules/python2.7/Bio/Entrez/Parser.py", строка 169, в self.parser.ParseFile чтения (ручки) Файл «/ USR / Lib /pymodules/python2.7/Bio/Entrez/Parser.py», строка 285, в startElementHandler поднять ValidationError (имя) Bio.Entrez.Parser.ValidationError: Не удалось найти тег 'Build' в DTD. Для того, чтобы пропустить все теги, которые не представлены в ОТД, просьба звонить по телефону Bio.Entrez.read или Bio.Entrez.parse с Validate = False. Почему база данных белков не поддерживается? Может кто-нибудь помочь мне с этим вопросом? в файле "/usr/lib/pymodules/python2.7/Bio/Entrez/__init__.py", строка 351, в прочитанной записи = handler.read (ручка) Файл «/usr/lib/pymodules/python2.7/Bio /Entrez/Parser.py», строка 169, в считывающей self.parser.ParseFile (ручка) Файл "/usr/lib/pymodules/python2.7/Bio/Entrez/Parser.py", строка 285, в startElementHandler поднять ValidationError (имя) Bio.Entrez.Parser.ValidationError: Не удалось найти тег «Build» в DTD. Для того, чтобы пропустить все теги, которые не представлены в ОТД, просьба звонить по телефону Bio.Entrez.read или Bio.Entrez.parse с Validate = False. Почему база данных белков не поддерживается? Может кто-нибудь помочь мне с этим вопросом? в файле "/usr/lib/pymodules/python2.7/Bio/Entrez/__init__.py", строка 351, в прочитанной записи = handler.read (ручка) Файл «/usr/lib/pymodules/python2.7/Bio /Entrez/Parser.py», строка 169, в считывающей self.parser.ParseFile (ручка) Файл "/usr/lib/pymodules/python2.7/Bio/Entrez/Parser.py", строка 285, в startElementHandler поднять ValidationError (имя) Bio.Entrez.Parser.ValidationError: Не удалось найти тег «Build» в DTD. Для того, чтобы пропустить все теги, которые не представлены в ОТД, просьба звонить по телефону Bio.Entrez.read или Bio.Entrez.parse с Validate = False. Почему база данных белков не поддерживается? Может кто-нибудь помочь мне с этим вопросом? строка 169, в self.parser.ParseFile чтения (ручки) Файл "/usr/lib/pymodules/python2.7/Bio/Entrez/Parser.py", строка 285, в startElementHandler поднять ValidationError (имя) Bio.Entrez.Parser .ValidationError: Не удалось найти тег «Build» в DTD. Для того, чтобы пропустить все теги, которые не представлены в ОТД, просьба звонить по телефону Bio.Entrez.read или Bio.Entrez.parse с Validate = False. Почему база данных белков не поддерживается? Может кто-нибудь помочь мне с этим вопросом? строка 169, в self.parser.ParseFile чтения (ручки) Файл "/usr/lib/pymodules/python2.7/Bio/Entrez/Parser.py", строка 285, в startElementHandler поднять ValidationError (имя) Bio.Entrez.Parser .ValidationError: Не удалось найти тег «Build» в DTD. Для того, чтобы пропустить все теги, которые не представлены в ОТД, просьба звонить по телефону Bio.Entrez.read или Bio.Entrez.parse с Validate = False. Почему база данных белков не поддерживается? Может кто-нибудь помочь мне с этим вопросом? Почему база данных белков не поддерживается? Может кто-нибудь помочь мне с этим вопросом? Почему база данных белков не поддерживается? Может кто-нибудь помочь мне с этим вопросом?
alejo0317
1

голосов
1

ответ
140

Просмотры

Python 'for loop' to parse results

I am a beginning python user (trying to learn for bioinformatics) and I am having difficulties in getting my final 'for loop' correct. I have used a web-based bioinformatic program to assess the subcellular localization of certain proteins (protein names and sequences contained within ORFs) and I am trying to parse the results (contained within targetp). The web-based program that I've used truncates the names of the proteins (and does not include sequences), and I would like to parse my results file such that I have the complete name and sequence of each protein in FASTA format (this entails having a '>' + the protein name on one line, and the protein sequence on the subsequent line). I think that everything is going well until the last block of code; I end up with the proper protein names, but they are all appended to the same sequence. I know that there must be something simple that I am doing wrong, but I just can't figure it out. Any ideas? Thanks! The ORFs file looks like this (it's FASTA, but the " shouldn't be there, only >): ">HsaNP_000700 branched chain keto acid dehydrogenase E1, alpha polypeptide MAVAIAAARVWRLNRGLSQAALLLLRQPGARGLARSHPPRQQQQFSSLDDKPQFPGASAEFIDKLEFIQPNVISGIPIYRVMDRQGQIINPSEDPHLPKEKVLKLYKSMTLLNTMDRILYESQRQGRISFYMTNYGEEGTHVGSAAALDNTDLVFGQYREAGVLMYRDYPLELFMAQCYGNISDLGKGRQMPVHYGCKERHFVTISSPLATQIPQAVGAAYAAKRANANRVVICYFGEGAASEGDAHAGFNFAATLECPIIFFCRNNGYAISTPTSEQYRGDGIAARGPGYGIMSIRVDGNDVFAVYNATKEARRRAVAENQPFLIEAMTYRIGHHSTSDDSSAYRSVDEVNYWDKQDHPISRLRHYLLSQGWWDEEQEKAWRKQSRRKVMEAFEQAERKPKPNPNLLFSDVYQEMPAQLRKQQESLARHLQTYGEHYPLDHFDK ">HsaNP_060914 pyruvate dehydrogenase phosphatase precursor MPAPTQLFFPLIRNCELSRIYGTACYCHHKHLCCSSSYIPQSRLRYTPHPAYATFCRPKENWWQYTQGRRYASTPQKFYLTPPQVNSILKANEYSFKVPEFDGKNVSSILGFDSNQLPANAPIEDRRSAATCLQTRGMLLGVFDGHAGCACSQAVSERLFYYIAVSLLPHETLLEIENAVESGRALLPILQWHKHPNDYFSKEASKLYFNSLRTYWQELIDLNTGESTDIDVKEALINAFKRLDNDISLEAQVGDPNSFLNYLVLRVAFSGATACVAHVDGVDLHVANTGDSRAMLGVQEEDGSWSAVTLSNDHNAQNERELERLKLEHPKSEAKSVVKQDRLLGLLMPFRAFGDVKFKWSIDLQKRVIESGPDQLNDNEYTKFIPPNYHTPPYLTAEPEVTYHRLRPQDKFLVLATDGLWETMHRQDVVRIVGEYLTGMHHQQPIAVGGYKVTLGQMHGLLTERRTKMSSVFEDQNAATHLIRHAVGNNEFGTVDHERLSKMLSLPEELARMYRDDITIIVVQFNSHVVGAYQNQE The targetp file looks like this (the M is in position 57, but the formatting here throws this off): HsaNP_000700 445 0.939 0.020 0.089 M 1 HsaNP_060914 537 0.309 0.073 0.629 _ 4 The leftmost column in targetp is the identifier (part of the header line in each protein sequence above), and I want to return only entries with an 'M' (i.e., not '_') in position 57, along with the protein name from ORFs (header line). My script is: #!/usr/bin/python ORFs = open('Human.MitoCarta.fasta', 'U') targetp = open('MitoCarta_TargetP_combined.out', 'U') report = targetp.readlines() protfile = open('mitocarta_no_mTP.fasta','w') protid = [] seqdict = {} for seq in ORFs: seq = seq.rstrip() if seq[0] == '': continue if seq[0] == '>': name = seq[1:] seqdict[name] = '' continue seqdict[name] += seq for entry in report: if entry.startswith('HsaNP'): if entry[57] != 'M': protid.append(entry[0:20]) protid = [x.strip(' ') for x in protid] nameslist = seqdict.keys() c = 0 for i in protid: if i in nameslist[c]: protfile.write('>%s\n%s\n\n' % (nameslist[c], seqdict[name])) c += 1 protfile.close()
mitochondrion
1

голосов
1

ответ
412

Просмотры

Translating a FASTA file of CDS to proteins taking into account open reading frames

У меня есть FASTA файл с нуклеотидных последовательностей. Мне нужно было перевести их на белки, но, принимая во внимание 3 рамок считывания (т.е. +1 «ATG» + 2 «TG», + 3 «G»). Этот простой код, использующий BioPython делает идеальную работу, если чтение кадр +1. Но для остальных двух он дает другой перевод. Есть ли способ указать в BioPython рамки считывания? Входной файл> contig20 TGGATCGGCGAGACCGACTCCGAGCGCGCCGACGTCGCCAAGGGATGGGCGTCCCTCCAGGTAAACCAACCCT CTTCCCATCAAATTCTTTTTACCATGCAATATAGTCGTCGGTGTCGATCACTGTCATGCATATGGATTGGATT AAACATGTCGCGGTCTCGTCGTTGCACGTTTCTTTCTTGCTTAACCACCTACCAATAGCAGCTGGTTGTAGCT AGGTCGCTGCTGGGGATTGAAATCTTCAGCTTTAAGATGACAGCGACGACGCCATGGTCGGTCGCCCGGTCGT GATCACCTACTCCAATTTACTGGAAAAATGATGATTTGTAAACGTGCATGCATGTTCCTTCAACCTTTTGTTA Желаемый выходной файл>
user3224522
1

голосов
3

ответ
1.4k

Просмотры

Looking for the amino acids motifs within protein sequence

У меня есть простой поисковик состоял из словаря, где UniProt коды и последовательности включены несколько записей. В конце концов, я хотел бы найти какие-то мотивы во всех этих последовательностях и распечатать его местоположение (только начать аминокислоты) в каждой последовательности. Для простых мотивов я сделал такую ​​задачу, используя ниже определения кода #simple мотива MOTIF = «AA» для и, след в dict.iteritems (): для I в диапазоне (LEN (далее)): если след [я: ] .startswith (мотив): печать "% s был найден в% г позиции% s" % (мотив, я + 1, и) продолжать, где мой ДИКТ что-то вроде >>> Dict { 'P07204_TRBM_HUMAN': ' } Эта печать все позиции AA мотив вдоль всех трех последовательности. Теперь я хотел бы найти сложные мотивы вдоль этих последовательностей с использованием RE. # Поиск сложных мотивов, используя регулярные выражения для и, последовательности в Словаре. iteritems (): т = re.search (г "Н [^ Р] (S | T) [^ Р]", сл [:]), если re.search (г "Н [^ Р] (S | T) [^ Р]», сл [:]): печать "% s был найден в позиции% s в% s" % (m.group (), ул (m.start () + 1), и) продолжить С помощью этого кода можно обнаружить мотив только один раз, а для последовательности. Как следует определить дополнение для Loop больше точности, чтобы получить результаты, как и в первом случае, при условии, что каждый мотив может быть в несколько раз в каждой последовательности?
user3470313
1

голосов
2

ответ
346

Просмотры

Глядя на общий мотив между несколькими последовательностями

Мне нужно написать скрипт, который будет перебирает список последовательностей, найти общие мотивы между ними (то есть возможно несколько решений для различных мотивов) и распечатайте этот мотив, который был общим для всех последовательностей. В приведенном ниже примере цепочки = [ «Gattaca», «TAGACCA», «ATACA»] АТ является одним из общих мотивов. Я буду благодарен за любое решение такой задачи, включая использование функций BioPython. Недавно я сделал скрипт, который имеет петлю один и тот же набор для установки его в качестве эталона короткой последовательности, а затем попытаться найти эту последовательность рефа в каждой позиции других цепей. Но я действительно не знаю, как найти общие мотивы без определения ссылки # ссылочный XZ =»» .join (цепи) исх = мин (xz.split (), ключ = LEN) # ИЩУ Мотивы для цепи в цепях :
user3470313
1

голосов
1

ответ
564

Просмотры

Элегантный разбор списка ключ-значение на основе текста

Я пишу синтаксический анализатор для текста на основе последовательности выравнивания / файлов карты (SAM). Одно из полей является каскадный список пар ключ-значение, содержащих один символ алфавита и целое число (целое приходит первым). Я работаю код, но он просто чувствует себя немного неуклюжим. Что такое элегантный шаблон для разбора формата, таких как это? Благодарю. Входные данные: запись [ 'cigar_str'] = '6M1I69M1D34M' Желаемый выход: запись [ 'сигары'] = [{ 'тип': 'М', 'Длина': 6}, { 'тип': 'I', «Длина ': 1}, {' типа ':' М», 'длины': 69}, { 'типа': 'D' 'длина': 1}, { 'типа': 'М', 'длина': 34}] EDIT: Мой текущий подход сигареты = re.findall ( '[\ d] {0} [AZ] {1}', запись [ ''] cigar_str) для сигарет в сигаретах:
1

голосов
3

ответ
124

Просмотры

Perl Text-Parsing; Which algorithm is correct?

I am writing a Perl script that takes two files as input: one input is a tab-separated table with an identifier of interested in the second column, the second input is a list of identifiers that match the second column of the first file. THE GOAL is print only those lines of the table which contain an identifier in the second column and to print each line only once. I have written three versions of this program and have been finding different numbers of lines printed in each. Version 1: # TAB-SEPARTED TABLE FILE open (FILE, $file); while () { my $line = $_; chomp $line; # ARRAY CONTAINING EACH IDENTIFIER AS A SEPARATE ELEMENT foreach(@refs) { my $ref = $_; chomp $ref; if ( $line =~ $ref) { print "$line\n"; next; } } } Version 2: # ARRAY CONTAINING EVERY LINE OF THE TAB-SEPARATED TABLE AS A SEPARATE LINE foreach(@doc) { my $full = $_; # IF LOOP FOR PRINTING THE HEADER BUT NOT COMPARING IT TO ARRAY BELOW if ( $counter == 0 ) { print "$full\n"; $counter++; next; } # EXTRACT IDENTIFIER FROM LINE my @cells = split('\t', $full); my $gene = $cells[1]; foreach(@refs) { my $text = $_; if ( $gene =~ $text && $counter == 1 ) { # COMPARE IDENTIFIER print "$full\n"; next; } } $counter--; } Version 3: # LIST OF IDENTIFIERS foreach(@refs) { my $ref = $_; # LIST OF EACH ROW OF THE TABLE foreach(@doc) { my $line = $_; my @cells = split('\t', $line); my $gene = $cells[1]; if ( $gene =~ $ref ) { print "$line\n"; next; } } } Each of these approaches gives me different output and I do not understand why. I also do not understand if I can trust any of them to give me the right output. The right output should not contain any duplicate lines but more than one row might match any identifier from the list. Sample Input File: Position Symbol Name REF ALT chr1:887801 NOC2L nucleolar complex associated 2 homolog (S. cerevisiae) A G chr1:888639 NOC2L nucleolar complex associated 2 homolog (S. cerevisiae) T C chr1:888659 NOC2L nucleolar complex associated 2 homolog (S. cerevisiae) T C chr1:897325 KLHL17 kelch-like 17 (Drosophila) G C chr1:909238 PLEKHN1 pleckstrin homology domain containing, family N member 1 G C chr1:982994 AGRN agrin T C chr1:1254841 CPSF3L cleavage and polyadenylation specific factor 3-like C G chr1:3301721 PRDM16 PR domain containing 16 C T chr1:3328358 PRDM16 PR domain containing 16 T C List is pulled from a file that looks like this: A1BG A2M A2ML1 AAK1 ABCA12 ABCA13 ABCA2 ABCA4 ABCC2 Its put into an array using this code: open (REF, $ref_file); while () { my $line = $_; chomp $line; push(@refs, $line); } close REF;
Slavatron
1

голосов
1

ответ
4k

Просмотры

алгоритм Смита-Waterman, чтобы генерировать матрицу в Python

Я использую Python для создания динамической матрицы программирования с использованием алгоритма Смита-Waterman. Вот то, что я до сих пор: Защита оценки (BASE1, BASE2): base1 = base1.upper () BASE2 = base2.upper (), если base1 не в «АКТГ» или base2 не в «АКТГ»: печать «не база ДНК! ' sys.exit () Элиф Base1 == base2: Возвращение 3 Элиф Base1 + base2 == 'АГ' или Base1 + base2 == 'ГА': возвращает -1 Элиф Base1 + base2 == 'КТ' или Base1 + base2 == 'ТК': возвращает -1 остальное: возвращает -2 импорт SYS seq1 = sys.argv [1] seq2 = sys.argv [2] mRows = Len (seq1) Ncols = Len (seq2) зазор = INT (sys.argv [ 3]) матрица = [] # генерировать пустую матрицу для й в диапазоне (mRows + 1): matrix.append ([]) для у в диапазоне (Ncols + 1): матрица [х] .append (0) для г в диапазон (1, mRows + 1): Мой вопрос, почему это происходит и как я могу получить вокруг него? Почему цикл отпрыгнуть, а не продолжать переменные баллы? Некоторые из моего поиска неисправностей: для я в диапазоне (1, mRows + 1): для J в диапазоне (1, Ncols + 1): печать 'это я', я напечатаю это J ', J печать 'seq1', seq1 [I-1], 'seq2', seq2 [J-1] dscore = матрица [I-1] [J-1] + оценка (seq1 [I-1], seq2 [J-1]) vscore = матрица [I-1] [J] + зазор hscore = матрица [я] [J-1] + зазор матрица [I] [J] = тах (0, vscore, hscore, dscore) печати 'vscore =', vscore печати ' hscore =», hscore печать 'dscore =', dscore печать '\ п' дает:
miguel
1

голосов
1

ответ
494

Просмотры

Matching 2 strings and allowing a 5% mismatch rate

У меня есть 2 файлы с около 100 миллионов строк, которые должны быть сопоставлены друг с другом. Как указано в названии, я хочу, чтобы сравнить каждую строку из файлов друг к другу. У меня есть код, приведенный ниже, который работает абсолютно нормально, но я хочу, чтобы приспособить его так, что если несоответствие происходит в течение длительного матча, то он принимается с уровнем рассогласования 5%. Ниже функция я использую для сопоставления строк файлов. RET1 = [] присоединяемый = {} Защита slide_merge (seq1, seq2): инт в xrange (мин (LEN (seq1), длина (seq2))): если seq1 [я] == 'N': ret1.append ( seq1 [I]) печати ( '' .join (RET1)) Элиф seq2 [я] == 'N': ret1.append (seq1 [I]) печати ( '' .join (RET1)) Элиф seq1 [я] ! = seq2 [я]: разрыв еще: ret1.append (seq1 [я]) печать ( '' .join (RET1)) печать ( "строки разделяют длинный общий префикс длины:", длина (RET1), "из:"., длина (seq1)) ret1len = Len (RET1) слияния [ '' присоединиться (RET1 )] = ret1len # Добавляет детали в словаре возвращение сливая ниже код, как выше функция используется в коде и как я получаю самый длинный матч. в то время как Len (rc1u)> = 50: # Так матчи 8 включены slide_merge (rc1u, rc2wr) ### rc1u все разрезали здесь так не имеет дальнейшего использования rc1u = rc1u [1:] присоединяемых макс (merging.iteritems () , ключ = operator.itemgetter (1)) [0] = высокий максимум (merging.iteritems (), ключ = operator.itemgetter (1)) [0] высокий Incase это важно, я использую HTSeq для ввода файлы, которые являются генетическими последовательность действий.
Tom
1

голосов
1

ответ
185

Просмотры

Нестабильные выходные значения от ИНС и точности улучшения

Я пытаюсь разработать искусственную нейронную сеть с использованием PyBrain для моделирования биологических данных. Мой ANN компилирует и работает, но точность его стоимость очень низка, никогда не превосходящие ~ 62%. С точки зрения кодирования, как я могу улучшить точность Анненский? Что-то я заметил, что каждый раз, выходы ИНС не то же самое, либо, даже если набор тестовых данных не меняется - есть причина ИНС действует на неустойчиво, и как я могу улучшить это? Спасибо! :)
user3847447
1

голосов
2

ответ
204

Просмотры

Как включить две базы в положении, указанных пользователем

Я новичок в PERL работает над вопросом выше. так что я получил этот стык ошибки () смещение после конца массива, после того, как я использовать строгий; Я провел часы изменения коды, но безрезультатно, так может кто-нибудь, пожалуйста, объясните мне, почему это не работает, как мирянин, насколько это возможно (я всего новичок) Спасибо! #! USR / бен / Perl использовать строгий; использовать предупреждение; #Ask для ввода от пользователя #Then переключения двух баз в положениях, указанных пользователем печати «Введите строку ДНК: \ п»; мой @input_seq = Раскол (//,); грызть @input_seq; Печать «Первая база:»; #position первой базы мои $ base_1_pos =; чавкать $ base_1_pos; мой $ base_1 = "$ input_seq [$ base_1_pos]"; печать «Второе основание»; #position второй базы мои $ base_2_pos =; чавкать $ base_2_pos; мой $ base_2 = "$ input_seq [$ base_2_pos]"; @input_seq = сплайсинг (@input_seq, "
zebra
1

голосов
1

ответ
130

Просмотры

ошибка сегментации с SIFT

Я пытаюсь расшифровать, почему я получаю ошибку сегментации при попытке использовать просеять. Я использую Fasta файл теста, и файл substituion они предоставляют. Я использую базу данных SWISSPORT, которые я могу успешно BLAST против моей системы. Вот то, что я получаю при попытке использовать просеять: Arron @ Arron-Ideapad-Z570 ~ / Phd / программы / sift4.0.3b $ бен / тест SIFT_for_submitting_fasta_seq.csh / lacI.fasta дБ / swissprot.fa тест / lacI.subst 2,75 хвост lacI.fasta запрос /home/arron/Phd/programs/sift4.0.3b/tmp/lacI.fasta.query длина запроса 360 вводится ошибка read_psiblastuntillat Сегментация сказать мне, что я вошел info_on_seqs fawegwa не может открыть файл / дома / Arron /Phd/programs/sift4.0.3b/tmp/lacI.alignedfasta Выход в /home/arron/Phd/programs/sift4.0.3b/tmp/lacI.SIFTprediction I» ве пытался в течение последних двух часов, чтобы найти исходный код, в котором обрабатывается ошибка, но я не увенчался успехом. Кто-нибудь есть опыт работы с разломами сегментации просеять, или в состоянии указать мне на исходный код, чтобы я мог видеть то, что происходит не так? Спасибо большое.
brucezepplin
1

голосов
2

ответ
179

Просмотры

Fastq анализатор не принимает пустую последовательность (и другие случаи края). питон

это продолжение генератора не работает, чтобы разделить строку по конкретному идентификатору. Python 2. Однако, я полностью изменил код, и это не тот же самый формат вообще. речь идет о крайних случаях пограничных случаях:. когда длина последовательности отличается от числа значений качества. когда есть пустая последовательность или запись. когда число строк со значениями качества более чем один я не могу понять, как работать с крайними случаями выше. Если его пустой файл данных, то я все равно хочу выводить пустые строки. я пытаюсь с этими последовательностями здесь для моего входного файла: (только немного фона, идентификаторы устанавливается @ в начале строки, символы последовательности следует линии после того, как до линии с + не будет достигнута.
O.rka
1

голосов
2

ответ
114

Просмотры

Regex для повторного подстроки, возможно, с усеченным концом

Сейчас я работаю над конкретной задачей, которая базируется в генетике, но это в основном проблема регулярное выражение / сценариев. Я пытаюсь определить (и в конечном счете опустить) все строки с разделителями табуляцией файла, в котором запись в имени подпола в точке с запятой столбца удовлетворяет некоторое условие. В конце концов, я ищу пар оснований последовательностей, состоящие из коротких подпоследовательности повторяется для длины строки. Просто чтобы дать представление о таких вещах я говорю (так как стена текста не столь проницаемой в качестве примера), вот несколько случаев, я мог бы рассмотреть, с побочной мета-контекст упрощенным для целей иллюстрация: А 1 = FOO BLAH; BAR = BLAH; ПОЛЯ = AAAAAAAAAAAAAAAAA; / * Должны соответствовать этому * / В 2 FOO = BLAH; BAR = BLAH; / * Не все записи имеют это подпол; они не должны быть отфильтрованы * / С 3 FOO = BLAH; BAR = BLAH; FIELD = CATCATCATCATCATCAT; / * Это также должен быть согласован * / D 4 = FOO BLAH; BAR = BLAH; FIELD = ATACGGGGGCCATCG; / * The GGGGG в середине не следует рассчитывать; эта линия не должна быть согласована * / E 5 FOO = BLAH; BAR = BLAH; ПОЛЯ = CTTTCTTTCTTTCTTTCTTTCTT; / * Это должно быть согласовано, так как последовательность повторяется в течение строки, даже если оно усекается * / E 6 FOO = BLAH; BAR = BLAH; ПОЛЯ = CTTTCTTTCTTTCTTTCTTTAG; / * Это не должно быть согласованы, поскольку в отличие от E (5) последовательность Продольный не является усеченным вариантом повторяющейся последовательности * / Я в настоящее время есть простое выражение в СЭД, которая ведет себя корректно по линии A1 через D4, но не получает E5 право (но поэтому получает E6 справа): СЭД -r '/FIELD=(.{1,4})\1{4,};/d;' На данный момент я ищу только для повторяющихся последовательностей, где «слова» имеют длиной 1-4 букв, по крайней мере, 4 повторений после первоначального появления в начале строки. Я не знаю, достаточно регулярное выражение вуду, чтобы знать, как это сделать, или это за пределами возможностей только регулярных выражений и потребуется правильный язык сценариев для решения. Насколько я могу судить, вопрос сводится к тому, «как я могу написать выражение регулярных выражений, что позволяет частичное совпадение на спине-реф только на хвосте последовательности повторов», но я хотел бы избежать кипячения вниз точные детали к возможному недостоверной синопсис, и предоставить полную информацию таким образом, чтобы каждый, кто имеет опыт работы с идентичной проблемой в другой (или же) области исследования лучше признать его. EDIT Я придумал решение, которое, кажется, работает очень хорошо, что я написал в AWK и в основном избегали с помощью регулярных выражений для. Функция testr (сл, MaxLen, minrep) {Len = длина (сл); для (я = 1; я
archaephyrryx
1

голосов
2

ответ
163

Просмотры

XPath в R: выбор значения

У меня есть файл XML, который выглядит следующим образом: То, что я хотел бы сделать это: Распакуйте все идентификатор и имя атрибуты детей ввода, которые имеют тип = «ген» и хранить их в список / словарь / dataframe для последующего использования , Распакуйте все атрибуты реляционных детей и хранить их в аналогичной структуре. Я только начал с XML разбора, и я пытался читать другие вопросы здесь в Stackoverflow, а также различные часто задаваемые вопросы вокруг в Интернете, но я не могу заставить его работать. Я могу сделать следующее и выбрать все узлы в соответствии с (1) выше: данные = xmlTreeParse ( '~ / Загрузки / hsa04010.xml') = корень xmlRoot (данные) getNodeSet (корень, «/ затрагивающего пути / записи [@ типа = «ген»] ") ... который работает правильно, но я не знаю, как получить два отдельных значения (все они во втором случае) и хранить их где-нибудь. Я попробовал getNodeSet (корень, «/ путь / запись [@ типа =„ген“] / @ ид») ... но это только дает мне сообщение об ошибке: Ошибка в (функция (классы, FDEF, mtable): не удалось найти унаследованный метод для функции «saveXML» для подписания «XMLAttributeValue"»Даже если это работало бы я только получить идентификатор атрибута, а не имя, а также, который я хотел. Но, видя, как я не могу быть в состоянии получить даже только одно значение атрибута, хорошо ... не удалось найти наследуемый метод для функции «saveXML» для подписания «XMLAttributeValue"»Даже если это работало бы я только получить идентификатор атрибута, а не имя, а также, который я хотел. Но, видя, как я не могу быть в состоянии получить даже только одно значение атрибута, хорошо ... не удалось найти наследуемый метод для функции «saveXML» для подписания «XMLAttributeValue"»Даже если это работало бы я только получить идентификатор атрибута, а не имя, а также, который я хотел. Но, видя, как я не могу быть в состоянии получить даже только одно значение атрибута, хорошо ...
erikfas
1

голосов
1

ответ
76

Просмотры

Ошибка: функция Input_stream :: Input_stream (сопзЬ строку &, BOOL) строка 63. Ошибка при открытии файла @ HWI-M02942_file1.fasta

Я пишу сценарий Python для выполнения BLAST с помощью программы BLAST DIAMOND автоматически. Скрипт выполняет команды в терминале Ubuntu 14.04. Мой Python скрипт: импорт подпроцесс data_location = "/ главная / markschuurman / Desktop / Onderzoek_BioCentre / data_course_4 /" input_fasta_file = "@ HWI-M02942_file1.fasta" diamond_temp_dir = "/ главная / markschuurman / Desktop / DIAMOND_temp_dir /" diamond_blast_database_location = «/ дома / markschuurman / Desktop / Onderzoek_BioCentre / BLAST_with_DIAMOND / DIAMOND_BLAST_databases /»diamond_blast_output_file_directory = "/ главная / markschuurman / Desktop / Onderzoek_BioCentre / BLAST_with_DIAMOND / output_files /" diamond_blast_output_filemame_daa = "matches.daa" diamond_blast_output_filemame_tsv = "matches.tsv" max_hits_per_read = "5" Скрипт создает команды для выполнения после назначения правильного пути к файлам и имен файлов в переменных. Когда я пытаюсь запустить этот сценарий, я получаю следующее сообщение об ошибке: /usr/bin/python2.7 /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/scripts_to_parse_DIAMOND_output/execute_DIAMOND_BLAST.py Command: кд / дом / markschuurman / Desktop / Onderzoek_BioCentre / data_course_4 / Команда закончена Команда: алмаз BLASTX -d / дома / markschuurman / Desktop / Onderzoek_BioCentre / BLAST_with_DIAMOND / DIAMOND_BLAST_databases / tcdb -q @ HWI-M02942_file1.fasta -a /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa - т / дома / markschuurman / Desktop / DIAMOND_temp_dir / -k 5 -е 10 Ошибка: функция Input_stream :: Input_stream (сопзЬ строку &, BOOL) строка 63. Ошибка при открытии файла @ HWI-M02942_file1. FASTA команда завершена Команда: вид алмазной -a -o /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.tsv Ошибка: функция Input_stream :: Input_stream (сопзЬ строку &, BOOL) строка 75. Ошибка открытия файла /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa команды завершено, я уверен, что команды являются правильными, потому что, когда я выполнять команды, напечатанные в строке 20 отдельно в терминале нет никаких ошибок и вывода приложения BLAST правильно. Почему происходит эта ошибка при выполнении команд в этом сценарии Python и отдельно не в терминале, и как решить эту ошибку? вид алмазной -a /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa -o /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.tsv Ошибка: функция Input_stream :: Input_stream (сопзИте строку &, BOOL ) линии 75. Ошибка открытия файла /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa команды завершено, я не уверен, что команды являются правильными, потому что, когда я выполнять команды, напечатанные в строке 20 отдельно в терминале есть нет ошибки и вывод приложения BLAST правильно. Почему происходит эта ошибка при выполнении команд в этом сценарии Python и отдельно не в терминале, и как решить эту ошибку? вид алмазной -a /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa -o /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.tsv Ошибка: функция Input_stream :: Input_stream (сопзИте строку &, BOOL ) линии 75. Ошибка открытия файла /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa команды завершено, я не уверен, что команды являются правильными, потому что, когда я выполнять команды, напечатанные в строке 20 отдельно в терминале есть нет ошибки и вывод приложения BLAST правильно. Почему происходит эта ошибка при выполнении команд в этом сценарии Python и отдельно не в терминале, и как решить эту ошибку? Функция Input_stream :: Input_stream (сопзИте строку &, BOOL) строка 75. Ошибка при открытии файла /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa команда завершена, я уверен, что команды являются правильными, потому что, когда я выполнять команды печатаются в строке 20 отдельно в терминале нет никаких ошибок и вывода приложения BLAST правильно. Почему происходит эта ошибка при выполнении команд в этом сценарии Python и отдельно не в терминале, и как решить эту ошибку? Функция Input_stream :: Input_stream (сопзИте строку &, BOOL) строка 75. Ошибка при открытии файла /home/markschuurman/Desktop/Onderzoek_BioCentre/BLAST_with_DIAMOND/output_files/matches.daa команда завершена, я уверен, что команды являются правильными, потому что, когда я выполнять команды печатаются в строке 20 отдельно в терминале нет никаких ошибок и вывода приложения BLAST правильно. Почему происходит эта ошибка при выполнении команд в этом сценарии Python и отдельно не в терминале, и как решить эту ошибку? когда я выполнять команды, напечатанные в строке 20 отдельно в терминале нет никаких ошибок и вывода приложения BLAST правильно. Почему происходит эта ошибка при выполнении команд в этом сценарии Python и отдельно не в терминале, и как решить эту ошибку? когда я выполнять команды, напечатанные в строке 20 отдельно в терминале нет никаких ошибок и вывода приложения BLAST правильно. Почему происходит эта ошибка при выполнении команд в этом сценарии Python и отдельно не в терминале, и как решить эту ошибку?
Mark Schuurman
1

голосов
1

ответ
308

Просмотры

str.maketrans available in interactive python, but not python script?

Код, который я пишу, как предполагается, чтобы найти все открытые рамки считывания (ORF,) о генетической последовательности на прямом и обратном комплемента нити ДНК. Для того, чтобы сделать обратную цепь ДНК, я намеревался использовать str.maketrans (), чтобы отобразить дополнительные основы друг к другу. #! / USR / бен / ENV python3.3 импорта повторно импортировать SYS из argparse шаблона импорта ArgumentParser = re.compile (г '(= (ATG (??? ...) *) (= TAG | TGA | ТАА ))) dna_seq = 'find_orfs ATGACGGCTTGTTTCTTTTCTGTGGCTGCGTGA' DEF (dna_seq): "" "находит все возможные открытые рамки считывания (ORF,): парам dna_seq: ул, последовательность днк: возвращение: список, возможные открытые рамки считывания """ r_comp = dna_seq [:: - 1] .translate (str.maketrans ( "ATGC", "TACG")) возвращает список (pattern.findall (днк) + шаблон. FindAll (r_comp)) Когда я запускаю это в интерпретаторе он работает! Она возвращает правильный ответ: [ «ATGACGGCTTGTTTCTTTTCTGTGGCTGCG»] Когда я бегу это как сценарий (версия 3.3) я получаю AttributeError! AttributeError: объект типа «ул» не имеет атрибута «maketrans» Но когда я реж (ул) в интерпретаторе (версия 3.3), я вижу maketrans! Что дает!? После прочтения об изменениях в bytes.maketrans (), я попытался это не дало никаких результатов. Что я могу сделать, чтобы получить такую ​​же функциональность maketrans () в python3.3? Я вижу maketrans! Что дает!? После прочтения об изменениях в bytes.maketrans (), я попытался это не дало никаких результатов. Что я могу сделать, чтобы получить такую ​​же функциональность maketrans () в python3.3? Я вижу maketrans! Что дает!? После прочтения об изменениях в bytes.maketrans (), я попытался это не дало никаких результатов. Что я могу сделать, чтобы получить такую ​​же функциональность maketrans () в python3.3?
Thomas Matthew
1

голосов
1

ответ
57

Просмотры

Как извлечь короткую последовательность, основанную на размер шага?

Ниже код короткой последовательности экстракта в каждой последовательности с размером окна 100. окно будет смещаться от размера шага одной и извлекать последовательность. Я хотел бы извлечь короткую последовательность с каждым шагом 50. Может ли кто-нибудь мне помочь? из Био импорта SeqIO с открытым ( "B.fasta", "W"), как F: для seq_record в SeqIO.parse ( "A.fasta", "FASTA"): для я в диапазоне (LEN (seq_record.seq) - 99): f.write (ул ( ">" + seq_record.id) + "\ п") f.write (ул (seq_record.seq [I: + 100]) + "\ п") Пример FASTA файла :> hg17_ct_ER_ER_142 CTAAAAAAGTAAAAAAGAAAAAAAGAGAAAGAAAGAATATAGAAGCAACAAGTGTAGATTTACATTCTATTAGACAGTGACCCATTAGACCCGGACAAGGGG Пример вывода:>
Xiong89
1

голосов
1

ответ
287

Просмотры

Как отфильтровать последовательности, основанные на данных данных с помощью Python?

Я хотел бы, чтобы отфильтровать последовательности, которые я не хочу, на основе данного файла A.fasta. Исходный файл содержит все последовательности и FASTA файл на самом деле файл начинается с последовательностью ID с последующей ее нуклеотидами, представленный A, T, C, G. Может ли кто-нибудь мне помочь? A.fasta> chr12: 15747942-15747949 TGACATCA> ChR2: 130918058-130918065 TGACCTCA Original.fasta> CHR 3: 99679938-99679945 TGACGTAA> CHR9: 135822160-135822167 TGACCTCA> chr12: 15747942-15747949 TGACATCA> ChR2: 130918058-130918065 TGACCTCA> ChR2 : 38430457-38430464 TGACCTCA> CHR1: 112381724-112381731 TGACATCA Ожидаемый результат для C.fasta> CHR 3: 99679938-99679945 TGACGTAA> CHR9: 135822160-135822167 TGACCTCA> ChR2: 38430457-38430464 TGACCTCA> CHR1:
Xiong89
1

голосов
1

ответ
247

Просмотры

GOstats и termGraph - Получение всех участков из списка

Я использую GOstats R / пакет Bioconductor. Я имею проблему, которая не связана с функцией программы только моя способность перенаправить вывод в Rscripts. Я бег процедуры под названием «termGraph» и выходной список graphNEL графиков, которые я могу сюжет по отдельности, используя этот код. у2 = termGraphs (hgOver2, use.terms = TRUE, то p-значение = 0,01) y2.1 = termGraphs (hgCondOver2, use.terms = TRUE, то p-значение = 0,01) б1
Matt Thornton
1

голосов
2

ответ
1.3k

Просмотры

Python find function not working. What am I doing wrong?

Я любитель программист (мой фактический мой фактические основная биология), поэтому я прошу прощение, если код зверский. Во всяком случае, я делаю rosalind.info упражнения (http://rosalind.info/problems/subs/), который хочет меня найти каждый индекс, где конкретный мотив ДНК содержится в большей последовательности ДНК. В принципе, мне нужно найти индексы подстроки в строке. Должно быть просто, правда? Ну, может быть, вы можете мне помочь. Так вот мой код: с открытой ( 'rosalind_subs.txt') как F: сл = f.readline () seq.strip () подлодки = f.readline () subs.strip () перерыв четкости искателем (х, у): индекс = x.find (у) возвращает индекс печати ( «последовательность:» + сл) печать ( «подводные лодки является:» + сабы) печать (искатель (далее, подводные лодки)) А вот мой результат: последовательность: TCTTTTATCCTCTTTTTTCCTCTTTTAGCGCTCTTTTGTAGCCTCTTTT мотив: CTCTTTTCT -1 *** Repl Closed *** Я оставил *** Repl Closed *** там в стремлении не оставлять камня на камне. Может быть, это что-то делать с Блистательной РЕПЛ? Во всяком случае, вы, вероятно, не могу сказать, просто посмотрев, но мотив на самом деле нашли много раз в последовательности ДНК, это просто функция находкой не поднимая на него. Что дает?
G.T.
1

голосов
1

ответ
93

Просмотры

Найдите файл смещения для индекса символа, игнорируя символ новой строки

У меня есть текстовый файл размером 3GB (а FASTA файл с последовательностями ДНК). Он содержит около 50 миллионов строк различной длины, хотя большинство линий 70 символов в ширину. Я хочу, чтобы извлечь строку из этого файла, учитывая два индекса символов. Трудная часть, что не будет новая строка учитываются как характер. Для хорошей скорости, я хочу использовать искать (), чтобы достичь начала строки и начать читать, но мне нужно смещение в байтах для этого. Мой текущий подход заключается в записи нового файла, со всеми символами новой строки будут удалены, но что делает еще 3GB на диске. Я хочу, чтобы найти решение, которое требует меньше места на диске. Использование словаря отображения каждое количество символов в файл смещение практически невозможно либо, потому что будет один ключ для каждого байта, поэтому, используя, по крайней мере 16bytes * 3 миллиарда символов = 48GB.
akraf
1

голосов
1

ответ
81

Просмотры

How to predict with the known information in an undirected graph

сетей взаимодействия белок-белок известны. Это неориентированный граф. Каждая строка из сетей, как это (протеин 2 - белка 6), и это представляет собой взаимодействие между белком 2 и 6. Белок сетей: белок 2 - 6 Белок Белок 4 - 5 Белок Белок 6 - Белок 5 Белок 5 - 7 Белок ... в этой сети, функция некоторых белков, как известно, и белки с аналогичной функцией, как правило, актуальны. Функция некоторых белков: белок 2, Func_002 Protein 2, Func_007 Protein 2, Func_008 Протеин 3, Func_007 Протеин 3, Func_008 Протеин 3, Func_009 Протеин 4, Func_011 Protein 5, Func_015 ... И известно, что часть белков раковые-родственные белки. Известные белки: Белки 4, Рак Белковые 6, 7 Рак Белки, Рак Белок 10, Рак ... Но подавляющее большинство белков, неизвестно, является ли рак белок, связанный или с проявлениями рака, связанных с белком. Как вы можете использовать известные канцерогенные родственные белки, чтобы предсказать белок является ли или не рак, связанных с белком? Я не знаю, как решить эту проблему.
user2405694

Просмотр дополнительных вопросов