Articles of traitement de text

Extraire des jetons d'une ligne de text

En utilisant bash scripting et grep / awk / sed, comment puis-je séparer une ligne correspondant à un model connu avec un seul caractère délimiteur dans un tableau, par exemple convertir token1;token2;token3;token4 dans a[0] = token1 … a[3]=token4 ?

vérifier datatables dans les colonnes lorsqu'une donnée ou certaines peuvent être manquantes ou présentes?

Je ne suis pas sûr si cela est possible. disons que j'ai des colonnes comme: Team Colour Game Rainfall PlayerName XYZ Blue Cricket Yes Kapil supposer que j'ai besoin de searchr des données qui sont ci-dessous Game je peux le faire en utilisant awk somthing comme: awk '{for(i=1;i<NF;i++) { if($i == "Game") { GameData=i next […]

Delta des nombres dans le file

Sur notre server, un cronjob a enregistré un nombre de files dans un directory partagé. Le journal est de la forme: 2003-07-03T16:05 279 2003-07-03T16:10 283 2003-07-03T16:15 282 Ce file a maintenant plus d'un million d'inputs. Je suis intéressé à find les plus grands changements que nous ayons jamais eu (négatifs et positifs). Je peux écrire […]

onglet séparation du file

J'ai un file avec seq aime ça ATCGTTTCTCAGCCTTTTGGCAAGACCAAGTGTAGTATCTGTTCTTATCAGATATTGGTATCTGCAGGCACTCCTGGAACCAAT ATCACTTCTCAACCTTTTGACTAAGATCAAGTGTAATATCTATCTTTATCAGTTTAATATCTGAGATCTCCTTTATCTGAGGACAATATATTTAATGGATTTTTGGAACAGAGAGAAGGAATAGGAGCTTGTCCTGTCCACTCCATGCATTGACCTGGTATTGCAGGACCTCCAGAAACACCACCCCCTCC ACGCATTATCCGCCTATTGGCTAAAAACAAATGTAGTATCTGTTCCTATCAGTTAAAGCATCAAATGTGGTCTCTAAGTTCAGGGAATTAAATTAATATTTGGAATTGGGAGATGGTTTGGGAGCTTGCTCTATCCTCTCCATGCCTCAGCATGTAATTGCAATGCTTTCAGGAGTGGTGCATTCCTT Disons qu'il a 3 lignes. Je veux pour chaque ligne chaque lettre est séparée par onglet et ensuite pour le stocker dans un autre file. Comment puis-je le faire. Cordialement

Extraction efficace des données de plusieurs files vers un seul file CSV

J'ai une grande collection de files XML avec la même structure exacte: $ cat file_<ID>.xml … … … <double>1.2342</double> <double>2.3456</double> … … … … où le nombre de ces inputs <double> dans chaque file XML est fixe et connu (dans mon cas particulier, 168). J'ai besoin de build un seul file csv avec le contenu […]

Awk script pour extraire une partie du file d'input

Comment écrire un script awk qui parsing le file d'input pour "start" et trouve la ligne contenant "next" et affiche la ligne suivante? Quelque chose comme ça: [user]$ cat test.txt start next This line should print Ignore this [user]$ display.awk test.txt This line should print [user]$ cat test1.txt Ignore this next Ignore this start Ignore […]

Imprimer récursivement la longueur du file

Comment imprimer la longueur de tous les files * .txt dans un directory? Par exemple: Contenu du directory: FileA.txt FileB.txt FileC.txt FileA.csv * .txt longueur: less FileA.txt | wc -l 43 less FileB.txt | wc -l 13 less FileC.txt | wc -l 3 Sortie souhaitée (écriture dans le file de sortie): 43 13 3 (J'essaie, […]

Imprimez toutes les lignes correspondantes et la ligne précédente non indentée

Par exemple, disons que je veux find toutes les lignes avec «matching» et les lignes non indentées précédentes dans ce text. Container 1 some text some text matching text some text Container 2 some text some text Container 3 some text matching text Le résultat que je veux ressemblera à ceci Container 1 matching text […]

balayer une séquence et sortir une sous-séquence

Je cherche un doublure pour cela si c'est possible. J'ai une séquence comme ça CCGGTCTCTTCCGGTTCTGTCTTTTCGCTGG Je veux get la sortie où je numérise la base de la séquence par base et puis prendre 20 pb à partir de cela. Donc, la sortie devrait être quelque chose comme ça CCGGTCTCTTCCGGTTCTGT CGGTCTCTTCCGGTTCTGTC GGTCTCTTCCGGTTCTGTCT et ainsi de suite […]

Comment extraire plusieurs données d'un file et le stocker dans un file csv?

J'ai un file dans le format suivant: 19-08-02 Name appel ok hope local merge (mk) juin nov sept oct 00:00:t1 T1 299 0 24 8 3 64 F2 119 0 11 8 3 62 I1 25 0 2 9 4 64 F3 105 0 10 7 3 61 Regulated F2 0 0 0 FR T1 […]