Articles of bioinformatique

merge des files dans un seul dataframe

J'ai presque 160 files txt, chaque file a 7 colonnes et maintenant je veux mettre cela dans un seul file. Chacun des files de la première et de la sixième colonne (Geneid, Longueur) est le même, je veux juste que ce soit la 1ère et la 2ème colonne du file final et de tous les […]

Mettre à jour les valeurs d'un file en utilisant des informations provenant d'un autre file

Fichier 1: P SNP: 0.266234 1:11008 0.266234 1:11012 0.340042 1:13110 0.86724 rs201725126 0.86724 rs200579949 0.127269 1:1327 Fichier 2: snp chr:pos rs201725126 1:10020 rs200579949 1:10055 rs62651026 1:10108 rs376007522 1:10109 rs796688738 1:10128 rs368469931 1:10139 Sortie souhaitée: P SNP: 0.266234 1:11008 0.266234 1:11012 0.340042 1:13110 0.86724 1:10020 0.86724 1:10055 0.127269 1:13273 Donc, je voudrais replace tous les rsID […]

aide à la compréhension d'une formule awk qui déballe les files fasta

Je viens de find une formule qui peut être utilisée pour déballer des files fasta. Avant que je donne la formule, j'ai besoin d'expliquer ce que le déballage d'un file fasta est. En bref, le format fasta est comme ceci: >name_of_sequence$ xxxxxxxxxxxxxxxxxxxxxx$ >name_of_sequence_2$ xxxxxxxxxxxxxxxxxxxxxx$ >name_of_sequence_3$ xxxxxxxxxxxxxxxxxxxxxx$ Ce serait un file fasta normal car j'ai seulement […]

Organisation de données sortingdimensionnelles avec awk / sed / perl

J'ai ce file (une masortingce clairsemée): PC.354 OTU1 6 PC.354 OTU2 1 PC.356 OTU0 4 PC.356 OTU2 7 PC.356 OTU3 3 Je veux une sortie comme celle-ci (masortingce dense -classique .biom table): OTU_ID PC.354 PC.355 PC.356 OTU0 0 0 4 OTU1 6 0 0 OTU2 1 0 7 OTU3 0 0 3 Comment puis-je faire […]

replace le motif entre deux caractères

Staphylococcus_sp_HMSC14C01-KV792037.1:0.00371647154267842634,Staphylococcus_hominis_VCU122-AHLD01000058.1:0.00124439639436691308)69:0.00227646100249620856,(Staphylococcus_sp_HMSC072E01-KV814990.1:0.00288325234399461859,(((Staphylococcus_hominis_793_SHAE-JUSR01000051.1:0.00594391769091206796,Staphylococcus_pettenkoferi_1286_SHAE-JVVL01000037.1:0.00594050248317441135) la virgule sépare les différents éléments et dans chaque élément je veux supprimer tout entre – et : y compris – mais garder: comment puis-je faire cela? donc ça devrait ressembler Staphylococcus_sp_HMSC14C01:0.00371647154267842634,Staphylococcus_hominis_VCU122:0.00124439639436691308)69:0.00227646100249620856 J'ai utilisé sed 's/-.*://' 1.file > 2.file mais sed 's/-.*://' 1.file > 2.file fini par supprimer le file entier et j'ai gardé […]

Compter un caractère consécutif spécifique avec sa position d'occurrence et sa longueur

J'ai un file de séquence et je veux countr le caractère consécutif «N» avec sa position d'occurrence et la longueur Dis que j'ai un file nommé mySequence.fasta comme ceci: >sequence-1 ATCGCTAGCATNNNNNNNNNNNNNNCTAGCATCATGCNNNNNNATACGCATCACANNNNNNNNNCgcatATCAC et la production anticipée devrait être comme ceci: Position 12 N 14 Position 38 N 6 Position 56 N 9 Veuillez m'aider à résoudre […]

Les deux premiers champs doivent être séparés par _ et le rest des champs tels qu'ils sont

#CHROM POS REF ALT ../S101_sorted.bam ../S102_sorted.bam ../S105_sorted.bam ../S107_sorted.bam ../S113_sorted.bam ../S114_sorted.bam ../S115_sorted.bam ../S Aradu.A01 296611 TCTTTTTTTTTTTTTTT/CTT/CTTTT Aradu.A01 326689 TCT/CTTTT/CTTTT/CT/CTTTTTTTT/CT/CTT Aradu.A01 615910 TGTTTTTTTTTTTTTTTTTTT TT Aradu.A01 661394 TATTTTTT/ATTTTTTTTTTTTTTT Aradu.A01 941674 CTCC/TCCC/TCCCCCCCCCCCCCCCC Aradu.A01 942064 CTC/TC/TC/TC/TC/TCCC/TCC/TC/TCCC/TC/TCCCCC/TC/T Aradu.A01 954858 GAG/AGGGGGGGGGGGGGGGG/AGGGG Aradu.A01 1196780 CAC/ACCCCCCCCCCC/ACCC/ACCCCCC J'ai un file au format ci-dessus et j'essaie d'imprimer les deux premières colonnes séparées par _ et le […]

comment imprimer si une ligne contient un motif spécifique et ne pas imprimer si elle ne contient pas le motif

">16RI1_0 M01230:42:000000000-AWMRD:1:1101:15012:1778 1:N:0:0 TATCCGGATTTACTGGGTGTAAAGGGAGCGTAGGCGGCCATGCAAGTCAGAAGTGAAAAC ">16RA2_1 M01230:42:000000000-AWMRD:1:1101:15923:1780 1:N:0:0 TTGTCCGGATTTATTGGGCGTAAAGCGAGCGCAGGCGGTTTCTTAAGTCTGATGTGAAAGC ">0VC3_7 M01230:42:000000000-AWMRD:1:1101:15805:1805 1:N:0:0 TCATGAAGAACTCCGATCGCGAAGGCAAGTGTCCGGGGTGCAACTGACGCTGAGGCTCGAA ">11VI2_15 M01230:42:000000000-AWMRD:1:1101:17657:1817 1:N:0:0 GCGGCTTACTGGACTGTAACTGACGTTGAGGCTCGAAAGCGTGGGGAGCAAACAGGGCTC Bonjour, j'ai un file contenant des informations comme celle-ci. Je veux imprimer toutes les lignes commençant par ">" signe et la ligne suivante, mais il y a une condition la ligne commençant par ">" devrait contenir la lettre V. […]

Enveloppement d'une boucle autour d'une command 'sed' – traitement de nombreux files dans un seul directory

J'ai des files text contenant de nombreuses lignes, dont certaines commencent par ">" (c'est un file * .fasta et le ">" marque le début d'un nouveau conteneur d'information): >header_name1 sequence_info >header_name2 sequence_info Je veux append le nom du file dans lequel ces lignes se trouvent dans l'en-tête. Par exemple, si le file est nommé "1_nc.fasta", […]

Fractionnement du contenu du file dans d'autres files en fonction de la valeur du paramètre analysé dans le file

Un file régulier contient des données organisées en colonnes, séparées par un espace. En fonction de la valeur du second champ, je souhaite split ce file de données initial en plusieurs autres files. Le file de données comporte 54 242 lignes et 399 colonnes. La structure des données est la suivante: SNP Chr Pos ID_01 […]