Cara Menginstal dan Mengkonfigurasi Hadoop di Ubuntu 20.04
- 4781
- 1062
- John Ratke
Hadoop adalah kerangka kerja perangkat lunak yang gratis, open-source, dan berbasis Java yang digunakan untuk penyimpanan dan pemrosesan kumpulan data besar pada kelompok mesin. Menggunakan HDFS untuk menyimpan data dan memproses data ini menggunakan MapReduce. Ini adalah ekosistem alat data besar yang terutama digunakan untuk penambangan data dan pembelajaran mesin.
Apache Hadoop 3.3 dilengkapi dengan perbaikan nyata dan banyak perbaikan bug selama rilis sebelumnya. Ini memiliki empat komponen utama seperti Hadoop Common, HDFS, Benang, dan MapReduce.
Tutorial ini akan menjelaskan kepada Anda cara menginstal dan mengkonfigurasi Apache Hadoop di Ubuntu 20.04 LTS Linux System.
Langkah 1 - Menginstal Java
Hadoop ditulis di Java dan hanya mendukung Java Versi 8. Hadoop Versi 3.3 dan runtime Java 11 yang terbaru juga mendukung Java 8.
Anda dapat menginstal OpenJDK 11 dari repositori apt default:
pembaruan apt sudo
sudo apt instal openjdk-11-jdk
Setelah diinstal, verifikasi versi Java yang diinstal dengan perintah berikut:
java -version
Anda harus mendapatkan output berikut:
Versi OpenJDK "11.0.11 "2021-04-20 Lingkungan Runtime OpenJDK (Build 11.0.11+9-ubuntu-0ubuntu2.20.04) OpenJDK 64-Bit Server VM (Build 11.0.11+9-ubuntu-0ubuntu2.20.04, mode campuran, berbagi)
Langkah 2 - Buat Pengguna Hadoop
Merupakan ide bagus untuk membuat pengguna terpisah untuk menjalankan Hadoop untuk alasan keamanan.
Jalankan perintah berikut untuk membuat pengguna baru dengan nama Hadoop:
Sudo Adduser Hadoop
Berikan dan konfirmasi kata sandi baru seperti yang ditunjukkan di bawah ini:
Menambahkan Pengguna 'Hadoop' ... Menambahkan Grup Baru 'Hadoop' (1002) ... Menambahkan Pengguna Baru 'Hadoop' (1002) dengan grup 'Hadoop' ... membuat direktori home '/home/hadoop' ... menyalin file dari '/etc/skel' … Kata Sandi Baru: Retype Kata Sandi Baru: Passwd: Kata Sandi Diperbarui Berhasil Mengubah Informasi Pengguna Untuk Hadoop Masukkan Nilai Baru, atau Tekan Enter untuk Nama Lengkap Default []: Nomor Kamar []: Telepon kerja []: telepon rumah []: Lainnya []: apakah informasinya benar? [Y/n] y
Langkah 3 - Mengkonfigurasi Otentikasi Berbasis Key SSH
Selanjutnya, Anda perlu mengonfigurasi otentikasi SSH tanpa kata sandi untuk sistem lokal.
Pertama, ubah pengguna menjadi Hadoop dengan perintah berikut:
Su - Hadoop
Selanjutnya, jalankan perintah berikut untuk menghasilkan pasangan kunci publik dan pribadi:
ssh -keygen -t RSA
Anda akan diminta untuk memasukkan nama file. Cukup tekan ENTER untuk menyelesaikan proses:
Menghasilkan pasangan kunci RSA publik/pribadi. Masukkan file untuk menyimpan kunci (/home/hadoop/.ssh/id_rsa): Direktori dibuat '/home/hadoop/.ssh '. Masukkan frasa sandi (kosong tanpa frasa sandi): Masukkan frasa sandi yang sama lagi: Identifikasi Anda telah disimpan di/home/hadoop/.ssh/id_rsa kunci publik Anda telah disimpan di/home/hadoop/.ssh/id_rsa.pub sidik jari kunci adalah: sha256: qsa2syeiswp0hd+uxxxi0j9msorjkdgibkfbm3ejyik [email dilindungi] gambar acak kunci adalah:+--- [RSA 3072] ----+| ... O ++ = = O ++ =.+ | | ... OO++.O | |. oo. B . | | o… + o * . | | = ++ o o s | |.++o+ o | |.+.+ + . o | | o . o * o . | | E + . | +---- [SHA256]-----+
Selanjutnya, tambahkan kunci publik yang dihasilkan dari ID_RSA.pub ke otorisasi_keys dan menetapkan izin yang tepat:
kucing ~/.ssh/id_rsa.pub >> ~//.ssh/otorisasi_keys
Chmod 640 ~/.ssh/otorisasi_keys
Selanjutnya, verifikasi otentikasi SSH tanpa kata sandi dengan perintah berikut:
SSH Localhost
Anda akan diminta untuk mengotentikasi host dengan menambahkan kunci RSA ke host yang dikenal. Ketik ya dan tekan enter untuk mengotentikasi localhost:
Keaslian tuan rumah 'localhost (127.0.0.1) 'tidak bisa didirikan. ECDSA Key Fingerprint adalah SHA256: JFQDVBM3ZTPHUPGD5OMJ4CLVIH6TZIRZ2GD3BDNQGMQ. Apakah Anda yakin ingin terus menghubungkan (ya/tidak/[sidik jari])? Ya
Langkah 4 - Memasang Hadoop
Pertama, ubah pengguna menjadi Hadoop dengan perintah berikut:
Su - Hadoop
Selanjutnya, unduh versi terbaru Hadoop menggunakan perintah WGET:
wget https: // unduhan.Apache.org/hadoop/common/hadoop-3.3.0/Hadoop-3.3.0.ter.GZ
Setelah diunduh, ekstrak file yang diunduh:
tar -xvzf Hadoop -3.3.0.ter.GZ
Selanjutnya, ganti nama direktori yang diekstraksi ke Hadoop:
MV Hadoop-3.3.0 Hadoop
Selanjutnya, Anda perlu mengkonfigurasi variabel lingkungan Hadoop dan Java di sistem Anda.
Buka ~/.Bashrc File di editor teks favorit Anda:
nano ~/.Bashrc
Tambahkan baris di bawah ini untuk mengajukan. Anda dapat menemukan lokasi java_home dengan berlari dirname $ (dirname $ (readlink -f $ (yang java))))
Perintah di terminal.
Ekspor java_home =/usr/lib/jvm/java-11-opanjdk-amd64 ekspor hadoop_home =/home/hadoop/hadoop hadoop_install = $ hadoop_home hadoop_home = hadoop_home hadoop_home hadoop_home = hadoop hadoop_home hadoop hadoop_home hadoop_home $ HADOOP_HOME EKSPOR HADOOP_COMMON_LIB_NATIF_DIR = $ hadoop_home/lib/jalur ekspor asli = $ path: $ hadoop_home/sbin: $ hadoop_home/bin ekspor hadoop_opts = "-djava.perpustakaan.path = $ hadoop_home/lib/asli "
Simpan dan tutup file. Kemudian, aktifkan variabel lingkungan dengan perintah berikut:
Sumber ~/.Bashrc
Selanjutnya, buka file variabel lingkungan Hadoop:
nano $ hadoop_home/etc/hadoop/hadoop-env.SH
Sekali lagi atur java_home di lingkungan Hadoop.
Ekspor java_home =/usr/lib/jvm/java-11-openjdk-amd64
Simpan dan tutup file saat Anda selesai.
Langkah 5 - Mengkonfigurasi Hadoop
Pertama, Anda perlu membuat direktori namenode dan data di dalam direktori Hadoop Home:
Jalankan perintah berikut untuk membuat kedua direktori:
mkdir -p ~/hadoopdata/hdfs/namenode
mkdir -p ~/hadoopdata/hdfs/datasode
Selanjutnya, edit situs inti.xml File dan perbarui dengan nama host sistem Anda:
nano $ hadoop_home/etc/hadoop/core-situs.xml
Ubah nama berikut sesuai nama host sistem Anda:
FS.defaultfs hdfs: // hadoop.tecadmin.com: 9000123456 | FS.defaultfs hdfs: // hadoop.tecadmin.com: 9000 |
Simpan dan tutup file. Kemudian, edit HDFS-SITE.xml mengajukan:
nano $ hadoop_home/etc/hadoop/hdfs-site.xml
Ubah jalur direktori namenode dan datanode seperti yang ditunjukkan di bawah ini:
dfs.Replikasi 1 DFS.nama.File dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.data.File dir: /// home/hadoop/hadoopdata/hdfs/datanode1234567891011121314151617 | dfs.Replikasi 1 DFS.nama.File dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.data.File dir: /// home/hadoop/hadoopdata/hdfs/datanode |
Simpan dan tutup file. Kemudian, edit Situs Mapred.xml mengajukan:
nano $ hadoop_home/etc/hadoop/mapred-site.xml
Buat perubahan berikut:
Mapreduce.kerangka.Nama benang123456 | Mapreduce.kerangka.Nama benang |
Simpan dan tutup file. Kemudian, edit situs benang.xml mengajukan:
nano $ hadoop_home/etc/hadoop/site benang.xml
Buat perubahan berikut:
benang.NodeManager.aux-services mapreduce_shuffle123456 | benang.NodeManager.aux-services mapreduce_shuffle |
Simpan dan tutup file saat Anda selesai.
Langkah 6 - Mulai Hadoop Cluster
Sebelum memulai klaster Hadoop. Anda perlu memformat namenode sebagai pengguna Hadoop.
Jalankan perintah berikut untuk memformat namenode Hadoop:
HDFS Namenode -Format
Anda harus mendapatkan output berikut:
2020-11-23 10: 31: 51.318 Info Namenode.NnstorageretentionManager: akan mempertahankan 1 gambar dengan txid> = 0 2020-11-23 10: 31: 51.323 info namenode.FSIMAGE: FSIMAGAVER CLEAN CHECKPOINT: TXID = 0 Saat bertemu shutdown. 2020-11-23 10: 31: 51.323 Info Namenode.Namenode: shutdown_msg: /********************************************* *******************_Msg: Mematikan namenode di Hadoop.tecadmin.net/127.0.1.1 *********************************************** ***********/
Setelah memformat namenode, jalankan perintah berikut untuk memulai kluster Hadoop:
start-dfs.SH
Setelah HDFS dimulai dengan sukses, Anda harus mendapatkan output berikut:
Memulai namenode di [Hadoop.tecadmin.com] Hadoop.tecadmin.com: Peringatan: ditambahkan secara permanen 'Hadoop.tecadmin.com, fe80 :: 200: 2dff: fe3a: 26ca%eth0 '(ecdsa) ke daftar host yang dikenal. Memulai Datasodes Memulai Namenodes Sekunder [Hadoop.tecadmin.com]
Selanjutnya, mulailah layanan benang seperti yang ditunjukkan di bawah ini:
Mulai-Bukur.SH
Anda harus mendapatkan output berikut:
Mulai ResourceManager Memulai Nodemanagers
Anda sekarang dapat memeriksa status semua layanan Hadoop menggunakan perintah JPS:
JPS
Anda akan melihat semua layanan berjalan di output berikut:
18194 Namenode 18822 Nodemanager 17911 SecondaryNamenode 17720 DataDe 18669 Resourcemanager 19151 JPS
Langkah 7 - Sesuaikan Firewall
Hadoop sekarang mulai dan mendengarkan di port 9870 dan 8088. Selanjutnya, Anda harus mengizinkan port ini melalui firewall.
Jalankan perintah berikut untuk memungkinkan koneksi Hadoop melalui firewall:
firewall-cmd --permanent --add-port = 9870/tcp
firewall-cmd --permanent --add-port = 8088/tcp
Selanjutnya, muat ulang layanan firewalld untuk menerapkan perubahan:
firewall-cmd --eload
Langkah 8 - Akses Hadoop Namenode dan Manajer Sumber Daya
Untuk mengakses namenode, buka browser web Anda dan kunjungi URL http: // Anda-server-IP: 9870. Anda harus melihat layar berikut:
http: // hadoop.tecadmin.NET: 9870
Untuk mengakses sumber daya mengelola, buka browser web Anda dan kunjungi URL http: // Anda-server-IP: 8088. Anda harus melihat layar berikut:
http: // hadoop.tecadmin.NET: 8088
Langkah 9 - Verifikasi klaster Hadoop
Pada titik ini, cluster Hadoop diinstal dan dikonfigurasi. Selanjutnya, kami akan membuat beberapa direktori di sistem file HDFS untuk menguji hadoop.
Mari kita buat beberapa direktori di sistem file HDFS menggunakan perintah berikut:
HDFS DFS -MKDIR /TEST1
HDFS DFS -MKDIR /LOG
Selanjutnya, jalankan perintah berikut untuk mencantumkan direktori di atas:
HDFS DFS -LS /
Anda harus mendapatkan output berikut:
Ditemukan 3 item DRWXR-XR-X-HADOOP Supergroup 0 2020-11-23 10:56 /Log DRWXR-XR-X-HADOOP Supergroup 0 2020-11-23 10:51 /test1
Juga, letakkan beberapa file ke sistem file Hadoop. Sebagai contoh, menempatkan file log dari mesin host ke sistem file hadoop.
hdfs dfs -put/var/log/*/log/
Anda juga dapat memverifikasi file dan direktori di atas di antarmuka web Hadoop Namenode.
Buka antarmuka web namenode, klik utilitas => Jelajahi sistem file. Anda akan melihat direktori Anda yang telah Anda buat sebelumnya di layar berikut:
http: // hadoop.tecadmin.net: 9870/explorer.html
Langkah 10 - Stop Hadoop Cluster
Anda juga dapat menghentikan layanan namenode dan benang Hadoop kapan saja dengan menjalankan stop-dfs.SH Dan Berhenti-Buku.SH skrip sebagai pengguna Hadoop.
Untuk menghentikan layanan Hadoop Namenode, jalankan perintah berikut sebagai pengguna Hadoop:
stop-dfs.SH
Untuk menghentikan layanan Hadoop Resource Manager, jalankan perintah berikut:
Berhenti-Buku.SH
Kesimpulan
Tutorial ini menjelaskan kepada Anda tutorial langkah demi langkah untuk menginstal dan mengonfigurasi Hadoop di Ubuntu 20.04 Sistem Linux.