Fun in Linux Terminal - Mainkan dengan Word and Character Counts

Fun in Linux Terminal - Mainkan dengan Word and Character Counts

Baris perintah Linux memiliki banyak kesenangan di sekitar dirinya sendiri dan banyak tugas yang membosankan dapat dilakukan dengan sangat mudah namun dengan sempurna. Bermain dengan kata -kata dan karakter, frekuensinya dalam file teks, dll adalah apa yang akan kita lihat di artikel ini.

Satu -satunya perintah yang muncul di pikiran kita, untuk mengubah baris perintah Linux untuk memanipulasi kata dan karakter dari file teks adalah perintah wc.

Bersenang -senang dengan Word dan Letter Counts in Shell

A 'toilet'Perintah yang merupakan singkatan dari Word Count mampu mencetak Newline, Word & Byte Counts dari file teks.

Untuk bekerja dengan skrip kecil untuk menganalisis file teks, kita harus memiliki file teks. Untuk mempertahankan keseragaman, kami membuat file teks dengan perintah output of man, seperti yang dijelaskan di bawah ini.

$ man man> man.txt

Perintah di atas membuat file teks 'pria.txt'dengan isi'halaman manual' untuk 'pria' memerintah.

Kami ingin memeriksa kata -kata yang paling umum, di atas yang dibuat 'File teks'Dengan menjalankan skrip di bawah ini.

$ Cat Man.txt | tr "2 '| tr' [: atas:]" [: lebih rendah:] '| tr -d '[: punct:]' | grep -v '[^a -z]' | urutkan | uniq -c | urutkan -rn | kepala
Output sampel
7557 262 163 hingga 112 adalah 112 A 78 dari 78 manual 76 dan 64 jika 63 menjadi

Skrip sederhana satu liner di atas menunjukkan, sepuluh kata yang paling sering muncul dan frekuensi penampilannya, dalam file teks.

Bagaimana kalau memecah kata menjadi individu menggunakan perintah berikut.

$ echo 'Tecmint Team' | Lipat -W1
Output sampel
t e c m i n t t e a m

Catatan: Di sini, '-w1' adalah untuk lebar.

Sekarang kita akan memecah setiap kata dalam file teks, mengurutkan hasilnya dan mendapatkan output yang diinginkan dengan frekuensi sepuluh karakter paling sering.

$ fold -w1 < man.txt | sort | uniq -c | sort -rn | head
Output sampel
8579 2413 E 1987 A 1875 T 1644 I 1553 N 1522 O 1514 S 1224 R 1021 L

Bagaimana dengan mendapatkan karakter paling sering dalam file teks dengan huruf besar dan huruf kecil berbeda bersama dengan frekuensi kejadiannya.

$ fold -w1 < man.txt | sort | tr '[:lower:]"[:upper:]' | uniq -c | sort -rn | head -20
Output sampel
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 Y 344 .

Periksa output di atas, di mana tanda baca disertakan. Mari kita lupati tanda baca, dengan 'tr' memerintah. Ini dia:

$ fold -w1 < man.txt | tr '[:lower:]"[:upper:]' | sort | tr -d '[:punct:]' | uniq -c | sort -rn | head -20
Output sampel
 11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1550 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 Y

Sekarang saya memiliki tiga file teks, mari kita jalankan skrip satu liner di atas untuk melihat output.

$ kucing *.txt | Lipat -W1 | tr '[: lebih rendah:] "[: atas:]' | sort | tr -d '[: punct:]' | uniq -c | sort -rn | head -8
Output sampel
 11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 o

Selanjutnya kita akan menghasilkan huruf -huruf yang jarang terjadi setidaknya sepuluh huruf. Ini skrip sederhana.

$ Cat Man.txt | tr "2 '| tr' [: atas:]" [: lebih rendah:] '| tr -d '[: punct:]' | tr -d '[0-9]' | urutkan | uniq -c | urutkan -n | grep -e '...' | kepala
Output sampel
1 ────── teks acocok dengan Ph AkusILESATAN "Miss── Chasanasan 4irim ilangan ilangan acam> ilangan ilangan acam> ilangan ilangan Apsrist e. Semua argumen di dalamnya opsional 1 dapat melihat setLocale untuk detail yang tepat 1 opsi ab dibelanjakan oleh tidak dapat digunakan bersama -sama 1 dicapai dengan menggunakan variabel lingkungan yang lebih sedikit 1 proses anak mengembalikan status keluar nol 1 tindakan seolah -olah opsi ini disediakan menggunakan nama sebagai sebagai nama file 1 mengaktifkan format mode lokal dan menampilkan file manual lokal 1 aksen akut

Catatan: Semakin banyak titik dalam skrip di atas sampai semua hasil dihasilkan. Kita bisa gunakan .10 untuk mendapatkan sepuluh karakter yang cocok.

Skrip sederhana ini, juga membuat kita tahu kata -kata dan karakter yang paling sering muncul dalam bahasa Inggris.

Itu saja untuk saat ini. Saya akan berada di sini lagi dengan topik lain yang menarik dan tidak perlu diketahui, yang akan Anda baca untuk dibaca. Jangan lupa memberi kami umpan balik berharga di bagian komentar, di bawah ini.

Baca juga: 20 Perintah Lucu Linux