Cara Menginstal dan Mengkonfigurasi Hadoop di CentOS/RHEL 8
- 3340
- 179
- Enrique Purdy
Hadoop adalah kerangka kerja perangkat lunak berbasis terbuka, open-source dan Java yang digunakan untuk penyimpanan dan pemrosesan kumpulan data besar pada kelompok mesin. Menggunakan HDFS untuk menyimpan data dan memproses data ini menggunakan MapReduce. Ini adalah ekosistem alat data besar yang terutama digunakan untuk penambangan data dan pembelajaran mesin. Ini memiliki empat komponen utama seperti Hadoop Common, HDFS, Benang, dan MapReduce.
Dalam panduan ini, kami akan menjelaskan cara menginstal Apache Hadoop di Rhel/Centos 8.
Langkah 1 - Nonaktifkan Selinux
Sebelum memulai, adalah ide yang bagus untuk menonaktifkan Selinux di sistem Anda.
Untuk menonaktifkan Selinux, buka file/etc/selinux/config:
nano/etc/selinux/config
Ubah baris berikut:
Selinux = dinonaktifkan
Simpan file saat Anda selesai. Selanjutnya, restart sistem Anda untuk menerapkan perubahan selinux.
Langkah 2 - Instal Java
Hadoop ditulis di Java dan hanya mendukung Java Versi 8. Anda dapat menginstal OpenJDK 8 dan Ant menggunakan perintah DNF seperti yang ditunjukkan di bawah ini:
DNF Instal Java-1.8.0 -OpenjDK Ant -Y
Setelah diinstal, verifikasi versi Java yang diinstal dengan perintah berikut:
java -version
Anda harus mendapatkan output berikut:
Versi OpenJDK "1.8.0_232 "Lingkungan Runtime OpenJDK (Build 1.8.0_232-B09) OpenJDK 64-Bit Server VM (Build 25.232-B09, mode campuran)
Langkah 3 - Buat Pengguna Hadoop
Merupakan ide bagus untuk membuat pengguna terpisah untuk menjalankan Hadoop untuk alasan keamanan.
Jalankan perintah berikut untuk membuat pengguna baru dengan nama Hadoop:
Useradd Hadoop
Selanjutnya, atur kata sandi untuk pengguna ini dengan perintah berikut:
Passwd Hadoop
Berikan dan konfirmasi kata sandi baru seperti yang ditunjukkan di bawah ini:
Mengubah Kata Sandi Untuk Pengguna Hadoop. Kata Sandi Baru: Retype Kata Sandi Baru: Passwd: Semua token otentikasi berhasil diperbarui.
Langkah 4 - Mengkonfigurasi Otentikasi Berbasis Kunci SSH
Selanjutnya, Anda perlu mengonfigurasi otentikasi SSH tanpa kata sandi untuk sistem lokal.
Pertama, ubah pengguna menjadi Hadoop dengan perintah berikut:
Su - Hadoop
Selanjutnya, jalankan perintah berikut untuk menghasilkan pasangan kunci publik dan pribadi:
ssh -keygen -t RSA
Anda akan diminta untuk memasukkan nama file. Cukup tekan ENTER untuk menyelesaikan proses:
Menghasilkan pasangan kunci RSA publik/pribadi. Masukkan file untuk menyimpan kunci (/home/hadoop/.ssh/id_rsa): Direktori dibuat '/home/hadoop/.ssh '. Masukkan frasa sandi (kosong tanpa frasa sandi): Masukkan frasa sandi yang sama lagi: Identifikasi Anda telah disimpan di/home/hadoop/.ssh/id_rsa. Kunci publik Anda telah disimpan di/home/hadoop/.ssh/id_rsa.pub. Sidik jari kuncinya adalah: SHA256: A/OG+N3CNBSSYE1ULKK95GYS0POOC0DVJ+YH1DFZPF8 [Email Dilindungi] Gambar RandomArt kunci adalah:+--- [RSA 2048] ----+| | | | | . | | . o o o | |… O S O O | | o = + o o . | | o * o = b = . | | + O.HAI.HAI + + . | | +=*ob.+ o e | +---- [SHA256]-----+
Selanjutnya, tambahkan kunci publik yang dihasilkan dari ID_RSA.pub ke otorisasi_keys dan menetapkan izin yang tepat:
kucing ~/.ssh/id_rsa.pub >> ~//.ssh/otorisasi_keys chmod 640 ~/.ssh/otorisasi_keys
Selanjutnya, verifikasi otentikasi SSH tanpa kata sandi dengan perintah berikut:
SSH Localhost
Anda akan diminta untuk mengotentikasi host dengan menambahkan kunci RSA ke host yang dikenal. Ketik ya dan tekan enter untuk mengotentikasi localhost:
Keaslian tuan rumah 'localhost (:: 1)' tidak dapat didirikan. ECDSA Key Fingerprint adalah SHA256: 0yr1KDGU44AKG43PHN2GENUZSVRJBBPJAT3BWRDR3MW. Apakah Anda yakin ingin terus menghubungkan (ya/tidak)? Ya Peringatan: Menambahkan 'Localhost' (ECDSA) secara permanen ke dalam daftar host yang dikenal. Aktifkan Konsol Web dengan: Systemctl Enable - -Now Cockpit.Socket Last Login: Sabtu 1 Feb 02:48:55 2020 [[Email Dilindungi] ~] $
Langkah 5 - Instal Hadoop
Pertama, ubah pengguna menjadi Hadoop dengan perintah berikut:
Su - Hadoop
Selanjutnya, unduh versi terbaru Hadoop menggunakan perintah WGET:
wget http: // apachemirror.Wuchna.com/hadoop/common/hadoop-3.2.1/Hadoop-3.2.1.ter.GZ
Setelah diunduh, ekstrak file yang diunduh:
tar -xvzf Hadoop -3.2.1.ter.GZ
Selanjutnya, ganti nama direktori yang diekstraksi ke Hadoop:
MV Hadoop-3.2.1 Hadoop
Selanjutnya, Anda perlu mengkonfigurasi variabel lingkungan Hadoop dan Java di sistem Anda.
Buka ~/.File Bashrc di editor teks favorit Anda:
nano ~/.Bashrc
Tambahkan baris berikut:
Ekspor java_home =/usr/lib/jvm/jre-1.8.0-OPENJDK-1.8.0.232.B09-2.EL8_1.x86_64/ekspor Hadoop_home =/home/hadoop/hadoop ekspor hadoop_install = $ hadoop_home ekspor hadoop_mapred_home = $ hadoop_home ekspor hadoop_common_home hadoop_home hadarne hadarne hadarne hadarne ucoop_home hadoop = : $ HADOOP_HOME/SBIN: $ HADOOP_HOME/BIN EKSPOR HADOOP_OPTS = "-DJAVA.perpustakaan.path = $ hadoop_home/lib/asli "
Simpan dan tutup file. Kemudian, aktifkan variabel lingkungan dengan perintah berikut:
Sumber ~/.Bashrc
Selanjutnya, buka file variabel lingkungan Hadoop:
nano $ hadoop_home/etc/hadoop/hadoop-env.SH
Perbarui variabel java_home sesuai jalur instalasi java Anda:
Ekspor java_home =/usr/lib/jvm/jre-1.8.0-OPENJDK-1.8.0.232.B09-2.EL8_1.x86_64/
Simpan dan tutup file saat Anda selesai.
Langkah 6 - Konfigurasikan Hadoop
Pertama, Anda perlu membuat direktori namenode dan data di dalam direktori Hadoop Home:
Jalankan perintah berikut untuk membuat kedua direktori:
mkdir -p ~/hadoopdata/hdfs/namenode mkdir -p ~/hadoopdata/hdfs/datasode
Selanjutnya, edit situs inti.xml File dan perbarui dengan nama host sistem Anda:
nano $ hadoop_home/etc/hadoop/core-situs.xml
Ubah nama berikut sesuai nama host sistem Anda:
FS.defaultfs hdfs: // hadoop.tecadmin.com: 9000123456 | FS.defaultfs hdfs: // hadoop.tecadmin.com: 9000 |
Simpan dan tutup file. Kemudian, edit HDFS-SITE.xml mengajukan:
nano $ hadoop_home/etc/hadoop/hdfs-site.xml
Ubah jalur direktori namenode dan datanode seperti yang ditunjukkan di bawah ini:
dfs.Replikasi 1 DFS.nama.File dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.data.File dir: /// home/hadoop/hadoopdata/hdfs/datanode1234567891011121314151617 | dfs.Replikasi 1 DFS.nama.File dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.data.File dir: /// home/hadoop/hadoopdata/hdfs/datanode |
Simpan dan tutup file. Kemudian, edit Situs Mapred.xml mengajukan:
nano $ hadoop_home/etc/hadoop/mapred-site.xml
Buat perubahan berikut:
Mapreduce.kerangka.Nama benang123456 | Mapreduce.kerangka.Nama benang |
Simpan dan tutup file. Kemudian, edit situs benang.xml mengajukan:
nano $ hadoop_home/etc/hadoop/site benang.xml
Buat perubahan berikut:
benang.NodeManager.aux-services mapreduce_shuffle123456 | benang.NodeManager.aux-services mapreduce_shuffle |
Simpan dan tutup file saat Anda selesai.
Langkah 7 - Mulai Hadoop Cluster
Sebelum memulai klaster Hadoop. Anda perlu memformat namenode sebagai pengguna Hadoop.
Jalankan perintah berikut untuk memformat namenode Hadoop:
HDFS Namenode -Format
Anda harus mendapatkan output berikut:
2020-02-05 03: 10: 40.380 info namenode.NnstorageretentionManager: akan mempertahankan 1 gambar dengan txid> = 0 2020-02-05 03: 10: 40.389 info namenode.FSIMAGE: FSIMAGAVER CLEAN CHECKPOINT: TXID = 0 Saat bertemu shutdown. 2020-02-05 03: 10: 40.389 Info Namenode.Namenode: shutdown_msg: /********************************************* *******************_Msg: Mematikan namenode di Hadoop.tecadmin.com/45.58.38.202 *********************************************** ***********/
Setelah memformat namenode, jalankan perintah berikut untuk memulai kluster Hadoop:
start-dfs.SH
Setelah HDFS dimulai dengan sukses, Anda harus mendapatkan output berikut:
Memulai namenode di [Hadoop.tecadmin.com] Hadoop.tecadmin.com: Peringatan: ditambahkan secara permanen 'Hadoop.tecadmin.com, fe80 :: 200: 2dff: fe3a: 26ca%eth0 '(ecdsa) ke daftar host yang dikenal. Memulai Datasodes Memulai Namenodes Sekunder [Hadoop.tecadmin.com]
Selanjutnya, mulailah layanan benang seperti yang ditunjukkan di bawah ini:
Mulai-Bukur.SH
Anda harus mendapatkan output berikut:
Mulai ResourceManager Memulai Nodemanagers
Anda sekarang dapat memeriksa status semua layanan Hadoop menggunakan perintah JPS:
JPS
Anda akan melihat semua layanan berjalan di output berikut:
7987 DATANODE 9606 JPS 8183 SecondaryNamenode 8570 NODEMANGER 8445 ResourceManager 7870 Namenode
Langkah 8 - Mengkonfigurasi Firewall
Hadoop sekarang dimulai dan mendengarkan di Port 9870 dan 8088. Selanjutnya, Anda harus mengizinkan port ini melalui firewall.
Jalankan perintah berikut untuk memungkinkan koneksi Hadoop melalui firewall:
firewall-cmd --permanent --add-port = 9870/tcp firewall-cmd --permanent --add-port = 8088/tcp
Selanjutnya, muat ulang layanan firewalld untuk menerapkan perubahan:
firewall-cmd --eload
Langkah 9 - Akses Hadoop Namenode dan Manajer Sumber Daya
Untuk mengakses namenode, buka browser web Anda dan kunjungi URL http: // Anda-server-IP: 9870. Anda harus melihat layar berikut:
Untuk mengakses sumber daya kelola, buka browser web Anda dan kunjungi URL http: // Anda-server-IP: 8088. Anda harus melihat layar berikut:
Langkah 10 - Verifikasi klaster Hadoop
Pada titik ini, cluster Hadoop diinstal dan dikonfigurasi. Selanjutnya, kami akan membuat beberapa direktori dalam sistem file HDFS untuk menguji hadoop.
Mari kita buat beberapa direktori di sistem file HDFS menggunakan perintah berikut:
HDFS DFS -MKDIR /TEST1 HDFS DFS -MKDIR /TEST2
Selanjutnya, jalankan perintah berikut untuk mencantumkan direktori di atas:
HDFS DFS -LS /
Anda harus mendapatkan output berikut:
Ditemukan 2 item DRWXR-XR-X-HADOOP Supergroup 0 2020-02-05 03:25 /test1 DRWXR-XR-X-HADOOP Supergroup 0 2020-02-05 03:35 /test2
Anda juga dapat memverifikasi direktori di atas di antarmuka web Hadoop Namenode.
Buka antarmuka web namenode, klik utilitas => Jelajahi sistem file. Anda akan melihat direktori Anda yang telah Anda buat sebelumnya di layar berikut:
Langkah 11 - Stop Hadoop Cluster
Anda juga dapat menghentikan layanan namenode dan benang Hadoop kapan saja dengan menjalankan stop-dfs.SH Dan Berhenti-Buku.SH skrip sebagai pengguna Hadoop.
Untuk menghentikan layanan Hadoop Namenode, jalankan perintah berikut sebagai pengguna Hadoop:
stop-dfs.SH
Untuk menghentikan layanan Hadoop Resource Manager, jalankan perintah berikut:
Berhenti-Buku.SH
Kesimpulan
Dalam tutorial di atas, Anda belajar cara mengatur kluster simpul tunggal Hadoop di Centos 8. Saya harap Anda sekarang memiliki pengetahuan yang cukup untuk memasang hadoop di lingkungan produksi.