Cara Menginstal dan Mengkonfigurasi Hadoop di CentOS/RHEL 8

Cara Menginstal dan Mengkonfigurasi Hadoop di CentOS/RHEL 8

Hadoop adalah kerangka kerja perangkat lunak berbasis terbuka, open-source dan Java yang digunakan untuk penyimpanan dan pemrosesan kumpulan data besar pada kelompok mesin. Menggunakan HDFS untuk menyimpan data dan memproses data ini menggunakan MapReduce. Ini adalah ekosistem alat data besar yang terutama digunakan untuk penambangan data dan pembelajaran mesin. Ini memiliki empat komponen utama seperti Hadoop Common, HDFS, Benang, dan MapReduce.

Dalam panduan ini, kami akan menjelaskan cara menginstal Apache Hadoop di Rhel/Centos 8.

Langkah 1 - Nonaktifkan Selinux

Sebelum memulai, adalah ide yang bagus untuk menonaktifkan Selinux di sistem Anda.

Untuk menonaktifkan Selinux, buka file/etc/selinux/config:

nano/etc/selinux/config 

Ubah baris berikut:

Selinux = dinonaktifkan 

Simpan file saat Anda selesai. Selanjutnya, restart sistem Anda untuk menerapkan perubahan selinux.

Langkah 2 - Instal Java

Hadoop ditulis di Java dan hanya mendukung Java Versi 8. Anda dapat menginstal OpenJDK 8 dan Ant menggunakan perintah DNF seperti yang ditunjukkan di bawah ini:

DNF Instal Java-1.8.0 -OpenjDK Ant -Y 

Setelah diinstal, verifikasi versi Java yang diinstal dengan perintah berikut:

java -version 

Anda harus mendapatkan output berikut:

Versi OpenJDK "1.8.0_232 "Lingkungan Runtime OpenJDK (Build 1.8.0_232-B09) OpenJDK 64-Bit Server VM (Build 25.232-B09, mode campuran) 

Langkah 3 - Buat Pengguna Hadoop

Merupakan ide bagus untuk membuat pengguna terpisah untuk menjalankan Hadoop untuk alasan keamanan.

Jalankan perintah berikut untuk membuat pengguna baru dengan nama Hadoop:

Useradd Hadoop 

Selanjutnya, atur kata sandi untuk pengguna ini dengan perintah berikut:

Passwd Hadoop 

Berikan dan konfirmasi kata sandi baru seperti yang ditunjukkan di bawah ini:

Mengubah Kata Sandi Untuk Pengguna Hadoop. Kata Sandi Baru: Retype Kata Sandi Baru: Passwd: Semua token otentikasi berhasil diperbarui. 

Langkah 4 - Mengkonfigurasi Otentikasi Berbasis Kunci SSH

Selanjutnya, Anda perlu mengonfigurasi otentikasi SSH tanpa kata sandi untuk sistem lokal.

Pertama, ubah pengguna menjadi Hadoop dengan perintah berikut:

Su - Hadoop 

Selanjutnya, jalankan perintah berikut untuk menghasilkan pasangan kunci publik dan pribadi:

ssh -keygen -t RSA 

Anda akan diminta untuk memasukkan nama file. Cukup tekan ENTER untuk menyelesaikan proses:

Menghasilkan pasangan kunci RSA publik/pribadi. Masukkan file untuk menyimpan kunci (/home/hadoop/.ssh/id_rsa): Direktori dibuat '/home/hadoop/.ssh '. Masukkan frasa sandi (kosong tanpa frasa sandi): Masukkan frasa sandi yang sama lagi: Identifikasi Anda telah disimpan di/home/hadoop/.ssh/id_rsa. Kunci publik Anda telah disimpan di/home/hadoop/.ssh/id_rsa.pub. Sidik jari kuncinya adalah: SHA256: A/OG+N3CNBSSYE1ULKK95GYS0POOC0DVJ+YH1DFZPF8 [Email Dilindungi] Gambar RandomArt kunci adalah:+--- [RSA 2048] ----+| | | | | . | | . o o o | |… O S O O | | o = + o o . | | o * o = b = . | | + O.HAI.HAI + + . | | +=*ob.+ o e | +---- [SHA256]-----+ 

Selanjutnya, tambahkan kunci publik yang dihasilkan dari ID_RSA.pub ke otorisasi_keys dan menetapkan izin yang tepat:

kucing ~/.ssh/id_rsa.pub >> ~//.ssh/otorisasi_keys chmod 640 ~/.ssh/otorisasi_keys 

Selanjutnya, verifikasi otentikasi SSH tanpa kata sandi dengan perintah berikut:

SSH Localhost 

Anda akan diminta untuk mengotentikasi host dengan menambahkan kunci RSA ke host yang dikenal. Ketik ya dan tekan enter untuk mengotentikasi localhost:

Keaslian tuan rumah 'localhost (:: 1)' tidak dapat didirikan. ECDSA Key Fingerprint adalah SHA256: 0yr1KDGU44AKG43PHN2GENUZSVRJBBPJAT3BWRDR3MW. Apakah Anda yakin ingin terus menghubungkan (ya/tidak)? Ya Peringatan: Menambahkan 'Localhost' (ECDSA) secara permanen ke dalam daftar host yang dikenal. Aktifkan Konsol Web dengan: Systemctl Enable - -Now Cockpit.Socket Last Login: Sabtu 1 Feb 02:48:55 2020 [[Email Dilindungi] ~] $ 

Langkah 5 - Instal Hadoop

Pertama, ubah pengguna menjadi Hadoop dengan perintah berikut:

Su - Hadoop 

Selanjutnya, unduh versi terbaru Hadoop menggunakan perintah WGET:

wget http: // apachemirror.Wuchna.com/hadoop/common/hadoop-3.2.1/Hadoop-3.2.1.ter.GZ 

Setelah diunduh, ekstrak file yang diunduh:

tar -xvzf Hadoop -3.2.1.ter.GZ 

Selanjutnya, ganti nama direktori yang diekstraksi ke Hadoop:

MV Hadoop-3.2.1 Hadoop 

Selanjutnya, Anda perlu mengkonfigurasi variabel lingkungan Hadoop dan Java di sistem Anda.

Buka ~/.File Bashrc di editor teks favorit Anda:

nano ~/.Bashrc 

Tambahkan baris berikut:

Ekspor java_home =/usr/lib/jvm/jre-1.8.0-OPENJDK-1.8.0.232.B09-2.EL8_1.x86_64/ekspor Hadoop_home =/home/hadoop/hadoop ekspor hadoop_install = $ hadoop_home ekspor hadoop_mapred_home = $ hadoop_home ekspor hadoop_common_home hadoop_home hadarne hadarne hadarne hadarne ucoop_home hadoop = : $ HADOOP_HOME/SBIN: $ HADOOP_HOME/BIN EKSPOR HADOOP_OPTS = "-DJAVA.perpustakaan.path = $ hadoop_home/lib/asli " 

Simpan dan tutup file. Kemudian, aktifkan variabel lingkungan dengan perintah berikut:

Sumber ~/.Bashrc 

Selanjutnya, buka file variabel lingkungan Hadoop:

nano $ hadoop_home/etc/hadoop/hadoop-env.SH 

Perbarui variabel java_home sesuai jalur instalasi java Anda:

Ekspor java_home =/usr/lib/jvm/jre-1.8.0-OPENJDK-1.8.0.232.B09-2.EL8_1.x86_64/ 

Simpan dan tutup file saat Anda selesai.

Langkah 6 - Konfigurasikan Hadoop

Pertama, Anda perlu membuat direktori namenode dan data di dalam direktori Hadoop Home:

Jalankan perintah berikut untuk membuat kedua direktori:

mkdir -p ~/hadoopdata/hdfs/namenode mkdir -p ~/hadoopdata/hdfs/datasode 

Selanjutnya, edit situs inti.xml File dan perbarui dengan nama host sistem Anda:

nano $ hadoop_home/etc/hadoop/core-situs.xml 

Ubah nama berikut sesuai nama host sistem Anda:

FS.defaultfs hdfs: // hadoop.tecadmin.com: 9000
123456 FS.defaultfs hdfs: // hadoop.tecadmin.com: 9000

Simpan dan tutup file. Kemudian, edit HDFS-SITE.xml mengajukan:

nano $ hadoop_home/etc/hadoop/hdfs-site.xml 

Ubah jalur direktori namenode dan datanode seperti yang ditunjukkan di bawah ini:

dfs.Replikasi 1 DFS.nama.File dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.data.File dir: /// home/hadoop/hadoopdata/hdfs/datanode
1234567891011121314151617 dfs.Replikasi 1 DFS.nama.File dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.data.File dir: /// home/hadoop/hadoopdata/hdfs/datanode

Simpan dan tutup file. Kemudian, edit Situs Mapred.xml mengajukan:

nano $ hadoop_home/etc/hadoop/mapred-site.xml 

Buat perubahan berikut:

Mapreduce.kerangka.Nama benang
123456 Mapreduce.kerangka.Nama benang

Simpan dan tutup file. Kemudian, edit situs benang.xml mengajukan:

nano $ hadoop_home/etc/hadoop/site benang.xml 

Buat perubahan berikut:

benang.NodeManager.aux-services mapreduce_shuffle
123456 benang.NodeManager.aux-services mapreduce_shuffle

Simpan dan tutup file saat Anda selesai.

Langkah 7 - Mulai Hadoop Cluster

Sebelum memulai klaster Hadoop. Anda perlu memformat namenode sebagai pengguna Hadoop.

Jalankan perintah berikut untuk memformat namenode Hadoop:

HDFS Namenode -Format 

Anda harus mendapatkan output berikut:

2020-02-05 03: 10: 40.380 info namenode.NnstorageretentionManager: akan mempertahankan 1 gambar dengan txid> = 0 2020-02-05 03: 10: 40.389 info namenode.FSIMAGE: FSIMAGAVER CLEAN CHECKPOINT: TXID = 0 Saat bertemu shutdown. 2020-02-05 03: 10: 40.389 Info Namenode.Namenode: shutdown_msg: /********************************************* *******************_Msg: Mematikan namenode di Hadoop.tecadmin.com/45.58.38.202 *********************************************** ***********/ 

Setelah memformat namenode, jalankan perintah berikut untuk memulai kluster Hadoop:

start-dfs.SH 

Setelah HDFS dimulai dengan sukses, Anda harus mendapatkan output berikut:

Memulai namenode di [Hadoop.tecadmin.com] Hadoop.tecadmin.com: Peringatan: ditambahkan secara permanen 'Hadoop.tecadmin.com, fe80 :: 200: 2dff: fe3a: 26ca%eth0 '(ecdsa) ke daftar host yang dikenal. Memulai Datasodes Memulai Namenodes Sekunder [Hadoop.tecadmin.com] 

Selanjutnya, mulailah layanan benang seperti yang ditunjukkan di bawah ini:

Mulai-Bukur.SH 

Anda harus mendapatkan output berikut:

Mulai ResourceManager Memulai Nodemanagers 

Anda sekarang dapat memeriksa status semua layanan Hadoop menggunakan perintah JPS:

JPS 

Anda akan melihat semua layanan berjalan di output berikut:

7987 DATANODE 9606 JPS 8183 SecondaryNamenode 8570 NODEMANGER 8445 ResourceManager 7870 Namenode 

Langkah 8 - Mengkonfigurasi Firewall

Hadoop sekarang dimulai dan mendengarkan di Port 9870 dan 8088. Selanjutnya, Anda harus mengizinkan port ini melalui firewall.

Jalankan perintah berikut untuk memungkinkan koneksi Hadoop melalui firewall:

firewall-cmd --permanent --add-port = 9870/tcp firewall-cmd --permanent --add-port = 8088/tcp 

Selanjutnya, muat ulang layanan firewalld untuk menerapkan perubahan:

firewall-cmd --eload 

Langkah 9 - Akses Hadoop Namenode dan Manajer Sumber Daya

Untuk mengakses namenode, buka browser web Anda dan kunjungi URL http: // Anda-server-IP: 9870. Anda harus melihat layar berikut:

Untuk mengakses sumber daya kelola, buka browser web Anda dan kunjungi URL http: // Anda-server-IP: 8088. Anda harus melihat layar berikut:

Langkah 10 - Verifikasi klaster Hadoop

Pada titik ini, cluster Hadoop diinstal dan dikonfigurasi. Selanjutnya, kami akan membuat beberapa direktori dalam sistem file HDFS untuk menguji hadoop.

Mari kita buat beberapa direktori di sistem file HDFS menggunakan perintah berikut:

HDFS DFS -MKDIR /TEST1 HDFS DFS -MKDIR /TEST2 

Selanjutnya, jalankan perintah berikut untuk mencantumkan direktori di atas:

HDFS DFS -LS / 

Anda harus mendapatkan output berikut:

Ditemukan 2 item DRWXR-XR-X-HADOOP Supergroup 0 2020-02-05 03:25 /test1 DRWXR-XR-X-HADOOP Supergroup 0 2020-02-05 03:35 /test2 

Anda juga dapat memverifikasi direktori di atas di antarmuka web Hadoop Namenode.

Buka antarmuka web namenode, klik utilitas => Jelajahi sistem file. Anda akan melihat direktori Anda yang telah Anda buat sebelumnya di layar berikut:

Langkah 11 - Stop Hadoop Cluster

Anda juga dapat menghentikan layanan namenode dan benang Hadoop kapan saja dengan menjalankan stop-dfs.SH Dan Berhenti-Buku.SH skrip sebagai pengguna Hadoop.

Untuk menghentikan layanan Hadoop Namenode, jalankan perintah berikut sebagai pengguna Hadoop:

stop-dfs.SH 

Untuk menghentikan layanan Hadoop Resource Manager, jalankan perintah berikut:

Berhenti-Buku.SH 

Kesimpulan

Dalam tutorial di atas, Anda belajar cara mengatur kluster simpul tunggal Hadoop di Centos 8. Saya harap Anda sekarang memiliki pengetahuan yang cukup untuk memasang hadoop di lingkungan produksi.