Cara menginstal hadoop di rhel 8 / centos 8 linux

Cara menginstal hadoop di rhel 8 / centos 8 linux

Apache Hadoop adalah kerangka kerja open source yang digunakan untuk penyimpanan terdistribusi serta pemrosesan data besar terdistribusi pada kelompok komputer yang berjalan pada perangkat keras komoditas. Hadoop menyimpan data dalam Sistem File Terdistribusi Hadoop (HDFS) dan pemrosesan data ini dilakukan dengan menggunakan MapReduce. Benang menyediakan API untuk meminta dan mengalokasikan sumber daya di Hadoop Cluster.

Kerangka kerja Apache Hadoop terdiri dari modul -modul berikut:

  • Hadoop Common
  • Sistem File Terdistribusi Hadoop (HDFS)
  • BENANG
  • Mapreduce

Artikel ini menjelaskan cara menginstal Hadoop Versi 2 di RHEL 8 atau CentOS 8. Kami akan menginstal HDFS (namenode dan datasode), benang, mapreduce pada cluster simpul tunggal dalam mode terdistribusi semu yang didistribusikan simulasi pada satu mesin. Setiap daemon hadoop seperti HDF, benang, mapreduce dll. akan berjalan sebagai proses java terpisah/individu.

Dalam tutorial ini Anda akan belajar:

  • Cara Menambahkan Pengguna untuk Lingkungan Hadoop
  • Cara Menginstal dan Mengkonfigurasi Oracle JDK
  • Cara mengkonfigurasi ssh tanpa kata sandi
  • Cara menginstal hadoop dan mengkonfigurasi file xml terkait yang diperlukan
  • Cara Memulai Cluster Hadoop
  • Cara Mengakses Namenode dan Web UI Web ResourceManager
Arsitektur HDFS.

Persyaratan dan konvensi perangkat lunak yang digunakan

Persyaratan Perangkat Lunak dan Konvensi Baris Perintah Linux
Kategori Persyaratan, konvensi atau versi perangkat lunak yang digunakan
Sistem Rhel 8 / Centos 8
Perangkat lunak Hadoop 2.8.5, Oracle JDK 1.8
Lainnya Akses istimewa ke sistem Linux Anda sebagai root atau melalui sudo memerintah.
Konvensi # - mensyaratkan perintah linux yang diberikan untuk dieksekusi dengan hak istimewa root baik secara langsung sebagai pengguna root atau dengan menggunakan sudo memerintah
$ - mensyaratkan perintah Linux yang diberikan untuk dieksekusi sebagai pengguna biasa

Tambahkan pengguna untuk lingkungan Hadoop

Buat pengguna dan grup baru menggunakan perintah:

# useradd hadoop # passwd hadoop 
[root@hadoop ~]# useradd hadoop [root@hadoop ~]# passwd hadoop mengubah kata sandi untuk pengguna hadoop. Kata Sandi Baru: Retype Kata Sandi Baru: Passwd: Semua token otentikasi berhasil diperbarui. [root@hadoop ~]# cat /etc /passwd | GREP HADOOP HADOOP: X: 1000: 1000 ::/HOME/HADOOP:/BIN/BASH 

Instal dan konfigurasikan oracle JDK

Unduh dan instal JDK-8U202-Linux-X64.Paket resmi RPM untuk menginstal Oracle JDK.

[root@hadoop ~]# rpm -ivh jdk-8u202-linux-x64.Peringatan RPM: JDK-8U202-Linux-X64.RPM: Header V3 RSA/SHA256 Tanda Tangan, Kunci ID EC551F03: NoKey Verifikasi… ############################### 100%] Mempersiapkan… ################################ [100%] Pembaruan / pemasangan… 1: JDK1.8-2000: 1.8.0_202-FCS ################################ [100%] Membongkar file jar… alat.Jar… plugin.Jar… Javaws.Jar ... Deploy.Jar… Rt.Jar… JSSE.Jar… charset.Jar ... Localedata.stoples… 


Setelah instalasi untuk memverifikasi Java telah berhasil dikonfigurasi, jalankan perintah berikut:

[root@hadoop ~]# java -version java versi "1.8.0_202 "Java (TM) SE Runtime Environment (Build 1.8.0_202-B08) Java Hotspot (TM) 64-bit Server VM (Build 25.202-B08, mode campuran) [root@hadoop ~]# pembaruan-alternatif --config Java Ada 1 program yang menyediakan 'java'. Perintah Seleksi ----------------------------------------------- * + 1/usr/java/jdk1.8.0_202-AMD64/JRE/BIN/JAVA 

Konfigurasikan SSH tanpa kata sandi

Instal Open SSH Server dan Open SSH Client atau jika sudah diinstal maka akan mencantumkan paket di bawah ini.

[root@hadoop ~]# rpm -qa | grep openssh* openssh-server-7.8p1-3.EL8.x86_64 OpenSSL-LIBS-1.1.1-6.EL8.x86_64 OpenSSL-1.1.1-6.EL8.x86_64 OpenSSH-CLIENTS-7.8p1-3.EL8.x86_64 OpenSSH-7.8p1-3.EL8.x86_64 OpenSSL-PKCS11-0.4.8-2.EL8.x86_64 

Menghasilkan pasangan kunci publik dan pribadi dengan perintah berikut. Terminal akan meminta untuk memasukkan nama file. Tekan MEMASUKI dan lanjutkan. Setelah itu salin formulir kunci publik id_rsa.pub ke otorisasi_keys.

$ ssh -keygen -t rsa $ cat ~/.ssh/id_rsa.pub >> ~//.ssh/otorisasi_keys $ chmod 640 ~/.ssh/otorisasi_keys 
[Hadoop@Hadoop ~] $ ssh -keygen -t RSA Menghasilkan pasangan kunci RSA publik/pribadi. Masukkan file untuk menyimpan kunci (/home/hadoop/.ssh/id_rsa): Direktori dibuat '/home/hadoop/.ssh '. Masukkan frasa sandi (kosong tanpa frasa sandi): Masukkan frasa sandi yang sama lagi: Identifikasi Anda telah disimpan di/home/hadoop/.ssh/id_rsa. Kunci publik Anda telah disimpan di/home/hadoop/.ssh/id_rsa.pub. Sidik jari kuncinya adalah: sha256: h+llpkajjdd7b0f0je/nfjrp5/fuejswmmzpjfxoelg [email protected] pasir.com gambar acak kunci adalah: +--- [RSA 2048] ---- +| ... ++*o .o | | Hai… +.HAI.+Hai.+| | +... * +oo == | | . o o . E .oo | | . = .S.* o | | . Hai.o = o | | ... o | | .Hai. | | Hai+. | + ---- [SHA256] -----+ [Hadoop@Hadoop ~] $ Cat ~/.ssh/id_rsa.pub >> ~//.ssh/otorized_keys [hadoop@hadoop ~] $ chmod 640 ~/.ssh/otorisasi_keys 

Verifikasi konfigurasi SSH tanpa kata sandi dengan perintah:

$ ssh  
[Hadoop@Hadoop ~] $ SSH Hadoop.bak pasir.com Web Console: https: // hadoop.bak pasir.com: 9090/atau https: // 192.168.1.108: 9090/ Login Terakhir: SAT 13 Apr 12:09:55 2019 [Hadoop@Hadoop ~] $ 

Instal Hadoop dan konfigurasikan file XML terkait

Unduh dan Ekstrak Hadoop 2.8.5 dari situs resmi Apache.

# wget https: // arsip.Apache.org/dist/hadoop/common/hadoop-2.8.5/Hadoop-2.8.5.ter.GZ # TAR -XZVF HADOOP -2.8.5.ter.GZ 
[root@rhel8-sandbox ~]# wget https: // arsip.Apache.org/dist/hadoop/common/hadoop-2.8.5/Hadoop-2.8.5.ter.GZ --2019-04-13 11: 14: 03-- https: // arsip.Apache.org/dist/hadoop/common/hadoop-2.8.5/Hadoop-2.8.5.ter.GZ Menyelesaikan Arsip.Apache.org (arsip.Apache.org)… 163.172.17.199 Menghubungkan ke Arsip.Apache.org (arsip.Apache.org) | 163.172.17.199 |: 443… terhubung. Permintaan http terkirim, menunggu respons ... 200 OK Panjang: 246543928 (235m) [Aplikasi/X-GZIP] Menyimpan ke: 'Hadoop-2.8.5.ter.GZ 'Hadoop-2.8.5.ter.GZ 100%[================================================ ========================================>] 235.12m 1.47MB/s dalam 2M 53S 2019-04-13 11:16:57 (1.36 MB/S) - 'Hadoop -2.8.5.ter.GZ 'disimpan [246543928/246543928] 

Menyiapkan Variabel Lingkungan

Edit Bashrc Untuk pengguna Hadoop melalui pengaturan variabel lingkungan Hadoop berikut:



Ekspor Hadoop_home =/home/hadoop/hadoop-2.8.5 export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin Ekspor Hadoop_opts = "-Djava.perpustakaan.path = $ hadoop_home/lib/asli " 
Menyalin

Sumber .Bashrc di sesi login saat ini.

$ sumber ~/.Bashrc

Edit Hadoop-env.SH file yang ada /etc/hadoop Di dalam direktori instalasi Hadoop dan membuat perubahan berikut dan periksa apakah Anda ingin mengubah konfigurasi lainnya.

Ekspor java_home = $ java_home:-"/usr/java/jdk1.8.0_202-AMD64 " Ekspor HADOOP_CONF_DIR = $ HADOOP_CONF_DIR:-"/HOME/HADOOP/HADOOP-2.8.5/etc/hadoop " 
Menyalin

Perubahan konfigurasi di situs inti.file xml

Edit situs inti.xml dengan vim atau Anda dapat menggunakan salah satu editor. File di bawah /etc/hadoop di dalam Hadoop direktori home dan tambahkan entri berikut.

  FS.defaultfs hdfs: // hadoop.bak pasir.com: 9000   Hadoop.TMP.dir /home/hadoop/hadooptmpdata   
Menyalin

Selain itu, buat direktori di bawah Hadoop folder rumah.

$ mkdir hadooptmpdata 

Perubahan Konfigurasi di HDFS-Site.file xml

Edit HDFS-SITE.xml yang ada di bawah lokasi yang sama i.e /etc/hadoop di dalam Hadoop direktori instalasi dan buat Namenode/datasode direktori di bawah Hadoop Direktori Rumah Pengguna.

$ mkdir -p hdfs/namenode $ mkdir -p hdfs/datasode 
  dfs.replikasi 1   dfs.nama.dir File: /// home/hadoop/hdfs/namenode   dfs.data.dir File: /// home/hadoop/hdfs/datasode   
Menyalin

Perubahan konfigurasi di situs mapred.file xml

Salin Situs Mapred.xml dari Situs Mapred.xml.templat menggunakan cp perintah dan kemudian edit Situs Mapred.xml ditempatkan /etc/hadoop di bawah Hadoop direktori instilasi dengan perubahan berikut.

$ cp-site mapred.xml.Template situs mapred.xml 
  Mapreduce.kerangka.nama benang   
Menyalin

Perubahan konfigurasi di situs benang.file xml

Edit situs benang.xml dengan entri berikut.



  Mapreduceyarn.NodeManager.layanan aux MapReduce_shuffle   
Menyalin

Memulai klaster Hadoop

Format namenode sebelum menggunakannya untuk pertama kalinya. Saat pengguna Hadoop menjalankan perintah di bawah ini untuk memformat namenode.

$ hdfs namenode -format 
[Hadoop@Hadoop ~] $ HDFS Namenode -Format 19/04/13 11:54:10 Info Namenode.Namenode: startup_msg: /********************************************* *************** startup_msg: Mulai namenode startup_msg: user = hadoop startup_msg: host = hadoop.bak pasir.com/192.168.1.108 startup_msg: args = [-format] startup_msg: versi = 2.8.5 19/04/13 11:54:17 Info Namenode.Fsnamesystem: dfs.namenode.mode aman.Threshold-PCT = 0.9990000128746033 19/04/13 11:54:17 Info Namenode.Fsnamesystem: dfs.namenode.mode aman.Min.Datanodes = 0 19/04/13 11:54:17 Info Namenode.Fsnamesystem: dfs.namenode.mode aman.ekstensi = 30000 19/04/13 11:54:18 Metrik info.Topmetrics: nntop conf: dfs.namenode.atas.jendela.num.Buckets = 10 19/04/13 11:54:18 Metrik info.Topmetrics: nntop conf: dfs.namenode.atas.num.Pengguna = 10 19/04/13 11:54:18 Metrik info.Topmetrics: nntop conf: dfs.namenode.atas.windows.Menit = 1,5,25 19/04/13 11:54:18 Info Namenode.Fsnamesystem: Coba lagi cache pada namenode diaktifkan 19/04/13 11:54:18 info namenode.Fsnamesystem: Coba lagi cache akan menggunakan 0.03 dari total heap dan retry cache entri waktu kedaluwarsa adalah 600000 millis 19/04/13 11:54:18 Info util.GSET: Kapasitas komputasi untuk peta namenoderetrycache 19/04/13 11:54:18 info util.GSET: VM TYPE = 64-bit 19/04/13 11:54:18 Info util.GSET: 0.02999999329447746% Memori Max 966.7 MB = 297.0 KB 19/04/13 11:54:18 Info Util.GSET: Kapasitas = 2^15 = 32768 Entri 19/04/13 11:54:18 Info Namenode.Fsimage: dialokasikan blockpoolid baru: BP-415167234-192.168.1.108-1555142058167 19/04/13 11:54:18 Info Umum.Penyimpanan: Direktori Penyimpanan/Rumah/Hadoop/HDFS/Namenode telah berhasil diformat. 19/04/13 11:54:18 Info Namenode.FSIMAGEFORMATPROTOBUF: Menyimpan file gambar/home/hadoop/hdfs/namenode/saat ini/fsimage.CKPT_0000000000000000000 Menggunakan No Compression 19/04/13 11:54:18 Info Namenode.FSIMAGEFORMATPROTOBUF: File gambar/home/hadoop/hdfs/namenode/arus/fsimage.CKPT_0000000000000000000 Ukuran 323 byte disimpan dalam 0 detik. 19/04/13 11:54:18 Info Namenode.NnstorageretentionManager: akan mempertahankan 1 gambar dengan txid> = 0 19/04/13 11:54:18 Info util.Keluar: Keluar dengan Status 0 19/04/13 11:54:18 Info Namenode.Namenode: shutdown_msg: /********************************************* *******************_Msg: Mematikan namenode di Hadoop.bak pasir.com/192.168.1.108 *********************************************** ***********/ 

Setelah namenode diformat kemudian mulai HDF menggunakan start-dfs.SH naskah.

$ start-dfs.SH 
[hadoop@hadoop ~] $ start-dfs.SH memulai namenode di [Hadoop.bak pasir.com] Hadoop.bak pasir.com: Memulai namenode, logging ke/home/hadoop/hadoop-2.8.5/Log/Hadoop-Hadoop-Namenode-Hadoop.bak pasir.com.keluar Hadoop.bak pasir.com: Memulai data, logging ke/home/hadoop/hadoop-2.8.5/Log/Hadoop-Hadoop-Datanode-Hadoop.bak pasir.com.keluar dari namenodes sekunder [0.0.0.0] Keaslian Host '0.0.0.0 (0.0.0.0) 'tidak bisa didirikan. ECDSA Key Fingerprint adalah SHA256: e+nfcek/kvnignwdhgfvikhjbwwghiijjkfjygr7nki. Apakah Anda yakin ingin terus menghubungkan (ya/tidak)? Ya 0.0.0.0: Peringatan: ditambahkan secara permanen '0.0.0.0 '(ecdsa) ke daftar host yang dikenal. [email protected] sandi 0: 0.0.0.0: Memulai SecondaryNamenode, Logging ke/Home/Hadoop/Hadoop-2.8.5/Log/Hadoop-Hadoop-Secondarynamenode-Hadoop.bak pasir.com.keluar 

Untuk memulai layanan benang, Anda perlu menjalankan skrip mulai benang i.e. Mulai-Bukur.SH

$ start-yarn.SH 
[hadoop@hadoop ~] $ start-yarn.SH MULAI YARN DAEMON MULAI MURAH SUMERCEMEMANGER, Masuk ke/Home/Hadoop/Hadoop-2.8.5/Log/Yarn-Hadoop-Resourcemanager-Hadoop.bak pasir.com.keluar Hadoop.bak pasir.com: Mulai NodeManager, logging ke/home/hadoop/hadoop-2.8.5/Log/Yarn-Hadoop-Nodemanager-Hadoop.bak pasir.com.keluar 

Untuk memverifikasi semua layanan/daemon Hadoop dimulai dengan sukses, Anda dapat menggunakan JPS memerintah.

$ JPS 2033 Namenode 2340 SecondaryNamenode 2566 ResourceManager 2983 JPS 2139 DataNode 2671 Nodemanagerer 

Sekarang kita dapat memeriksa versi Hadoop saat ini yang dapat Anda gunakan di bawah perintah:

$ Hadoop Versi 

atau

Versi $ HDFS 
[Hadoop@Hadoop ~] $ Hadoop Versi Hadoop 2.8.5 subversi https: // git-wip-us.Apache.org/repo/asf/hadoop.git -r 0B8464D75227FCEE2C6E7F2410377B3D53D3D5F8 Disusun oleh JDU pada 2018-09-10T03: 32z dikompilasi dengan Protoc 2.5.0 Dari Sumber dengan Checksum 9942CA5C745417C14E318835F420733 Perintah ini dijalankan menggunakan/home/hadoop/hadoop-2.8.5/Share/Hadoop/Common/Hadoop-Common-2.8.5.Jar [Hadoop@Hadoop ~] $ HDFS Versi Hadoop 2.8.5 subversi https: // git-wip-us.Apache.org/repo/asf/hadoop.git -r 0B8464D75227FCEE2C6E7F2410377B3D53D3D5F8 Disusun oleh JDU pada 2018-09-10T03: 32z dikompilasi dengan Protoc 2.5.0 Dari Sumber dengan Checksum 9942CA5C745417C14E318835F420733 Perintah ini dijalankan menggunakan/home/hadoop/hadoop-2.8.5/Share/Hadoop/Common/Hadoop-Common-2.8.5.Jar [Hadoop@Hadoop ~] $ 


Antarmuka baris perintah HDFS

Untuk mengakses HDFS dan membuat beberapa direktori di atas DFS Anda dapat menggunakan HDFS CLI.

$ hdfs dfs -mkdir /testdata $ hdfs dfs -mkdir /hadoopdata $ hdfs dfs -ls / 
[Hadoop@Hadoop ~] $ HDFS DFS -LS / Ditemukan 2 Item DRWXR-XR-X-HADOOP Supergroup 0 2019-04-13 11:58 / HadoopData DRWXR-XR-X-HADOOP Supergroup 0 2019-04-13 11: 59 /testdata 

Akses namenode dan benang dari browser

Anda dapat mengakses Web UI untuk Namenode dan Yarn Resource Manager melalui salah satu browser seperti Google Chrome/Mozilla Firefox.

Namenode Web UI - http: //: 50070

Antarmuka pengguna web namenode. Informasi detail HDFS. Penjelajahan Direktori HDFS.

Antarmuka web Yarn Resource Manager (RM) akan menampilkan semua pekerjaan yang berjalan di cluster Hadoop saat ini.

Web UI Manajer Sumber Daya - http: //: 8088

Antarmuka Pengguna Web Manajer Sumber Daya (YARN).

Kesimpulan

Dunia mengubah cara beroperasi saat ini dan data besar memainkan peran utama dalam fase ini. Hadoop adalah kerangka kerja yang membuat hidup kita mudah saat mengerjakan set data besar. Ada perbaikan di semua lini. Masa Depan Menyenangkan.

Tutorial Linux Terkait:

  • Ubuntu 20.04 Hadoop
  • Hal -hal yang harus diinstal pada ubuntu 20.04
  • Cara membuat cluster kubernetes
  • Cara menginstal kubernet di ubuntu 20.04 FOSSA FOSSA Linux
  • Cara menginstal kubernet di ubuntu 22.04 Jammy Jellyfish…
  • Hal -hal yang harus dilakukan setelah menginstal ubuntu 20.04 FOSSA FOSSA Linux
  • Hal -hal yang harus diinstal pada Ubuntu 22.04
  • Bagaimana bekerja dengan WooCommerce Rest API dengan Python
  • Cara mengelola cluster Kubernetes dengan Kubectl
  • Pengantar Otomatisasi Linux, Alat dan Teknik