Cara Menginstal Hadoop Single Node Cluster (pseudonode) di Centos 7

Cara Menginstal Hadoop Single Node Cluster (pseudonode) di Centos 7

Hadoop adalah kerangka kerja open-source yang banyak digunakan untuk ditangani Data besar. Sebagian besar BigData/Analisis Data proyek sedang dibangun di atas Sistem Ekis Hadoop. Itu terdiri dari dua lapis, satu untuk Menyimpan data dan yang lainnya adalah untuk Mengolah data.

Penyimpanan akan diurus dengan sistem file sendiri yang dipanggil HDFS (Hadoop membagikan sistem file) Dan Pengolahan akan diurus oleh BENANG (Namun negosiator sumber daya lainnya). Mapreduce adalah mesin pemrosesan default dari Sistem Ekis Hadoop.

Artikel ini menjelaskan proses untuk menginstal Pseudonode pemasangan Hadoop, dimana semua Daemon (JVM) akan berjalan Simpul tunggal Cluster on Centos 7.

Ini terutama bagi pemula untuk belajar Hadoop. Secara real-time, Hadoop akan diinstal sebagai cluster multinode di mana data akan didistribusikan di antara server sebagai blok dan pekerjaan akan dieksekusi secara paralel.

Prasyarat

  • Instalasi minimal server Centos 7.
  • Java V1.8 rilis.
  • Hadoop 2.x Rilis stabil.

Di halaman ini

  • Cara menginstal java di centos 7
  • Siapkan Login Tanpa Kata Sandi di Centos 7
  • Cara Menginstal Hadoop Single Node di Centos 7
  • Cara Mengkonfigurasi Hadoop di Centos 7
  • Memformat sistem file HDFS melalui namenode

Memasang Java di Centos 7

1. Hadoop adalah sebuah sistem eko ​​yang terdiri dari Jawa. Kita butuh Jawa terpasang di sistem kami secara wajib untuk menginstal Hadoop.

# yum instal java-1.8.0-OPENJDK 

2. Selanjutnya, verifikasi versi yang diinstal Jawa pada sistem.

# java -version 
Verifikasi Java Version

Konfigurasikan Login Tanpa Kata Sandi di Centos 7

Kita perlu mengonfigurasi ssh di mesin kita, Hadoop akan mengelola node dengan penggunaan Ssh. Penggunaan Master Node Ssh Koneksi untuk menghubungkan node budaknya dan melakukan operasi seperti Start dan Stop.

Kita perlu mengatur ssh kurang kata sandi sehingga master dapat berkomunikasi dengan budak menggunakan ssh tanpa kata sandi. Jika tidak untuk setiap pembentukan koneksi, perlu memasukkan kata sandi.

Di simpul tunggal ini, Menguasai jasa (Namenode, Namenode sekunder & Manajer Sumber Daya) Dan Budak jasa (Datanode & NodeManager) akan berjalan terpisah JVM. Meskipun itu adalah Singe Node, kita perlu memiliki SSH tanpa kata sandi untuk membuat Menguasai untuk berkomunikasi Budak tanpa otentikasi.

3. Atur login SSH tanpa kata sandi menggunakan perintah berikut di server.

# ssh-keygen # ssh-copy-id -i localhost 
Buat Keygen SSH di Centos 7 Salin Kunci SSH ke Centos 7

4. Setelah Anda mengonfigurasi login SSH tanpa kata sandi, cobalah untuk masuk lagi, Anda akan terhubung tanpa kata sandi.

# SSH Localhost 
SSH Login Tanpa Kata Sandi ke Centos 7

Memasang Hadoop di Centos 7

5. Buka situs web Apache Hadoop dan unduh rilis stabil Hadoop menggunakan perintah wget berikut.

# wget https: // arsip.Apache.org/dist/hadoop/core/hadoop-2.10.1/Hadoop-2.10.1.ter.GZ # TAR XVPZF HADOOP-2.10.1.ter.GZ 

6. Selanjutnya, tambahkan Hadoop Variabel lingkungan di ~/.Bashrc file seperti yang ditunjukkan.

Hadoop_prefix =/root/hadoop-2.10.1 path = $ path: $ hadoop_prefix/bin Jalur ekspor java_home hadoop_prefix 

7. Setelah menambahkan variabel lingkungan ke ~/.Bashrc file, sumber file dan verifikasi hadoop dengan menjalankan perintah berikut.

# Sumber ~/.BASHRC # CD $ HADOOP_PREFIX # BIN/HADOOP Versi 
Periksa versi Hadoop di Centos 7

Mengkonfigurasi Hadoop di Centos 7

Kami perlu mengkonfigurasi file konfigurasi hadoop di bawah ini agar sesuai dengan mesin Anda. Di dalam Hadoop, Setiap layanan memiliki nomor port sendiri dan direktori sendiri untuk menyimpan data.

  • File Konfigurasi Hadoop - Situs Inti.XML, HDFS-Site.xml, situs mapred.xml & situs benang.xml

8. Pertama, kita perlu memperbarui Java_home Dan Hadoop jalur di Hadoop-env.SH file seperti yang ditunjukkan.

# cd $ hadoop_prefix/etc/hadoop # vi hadoop-env.SH 

Masukkan baris berikut di awal file.

Ekspor java_home =/usr/lib/jvm/java-1.8.0/JRE Ekspor Hadoop_prefix =/root/hadoop-2.10.1 

9. Selanjutnya, ubah situs inti.xml mengajukan.

# cd $ hadoop_prefix/etc/hadoop # vi-situs inti.xml 

Tempel diikuti antara tag seperti yang ditunjukkan.

  FS.defaultfs hdfs: // localhost: 9000   

10. Buat direktori di bawah di bawah tecmint Direktori Rumah Pengguna, yang akan digunakan untuk Nn Dan Dn penyimpanan.

# mkdir -p/home/tecmint/hdata/ # mkdir -p/home/tecmint/hdata/data # mkdir -p/home/tecmint/hdata/name 

10. Selanjutnya, ubah HDFS-SITE.xml mengajukan.

# CD $ HADOOP_PREFIX/ETC/HADOOP # VI HDFS-SITE.xml 

Tempel diikuti antara tag seperti yang ditunjukkan.

  dfs.Replikasi 1 DFS.namenode.nama.dir/home/tecmint/hdata/nama dfs .datanode.data.Dir Home/Tecmint/HData/Data   

11. Sekali lagi, ubah Situs Mapred.xml mengajukan.

# CD $ HADOOP_PREFIX/ETC/HADOOP # CP MAPRED-SITE.xml.Template situs mapred.xml # vi-situs mapred.xml 

Tempel diikuti antara tag seperti yang ditunjukkan.

  Mapreduce.kerangka.Nama benang   

12. Terakhir, ubah situs benang.xml mengajukan.

# cd $ hadoop_prefix/etc/hadoop # vi-situs benang.xml 

Tempel diikuti antara tag seperti yang ditunjukkan.

  benang.NodeManager.aux-services mapreduce_shuffle   

Memformat sistem file HDFS melalui namenode

13. Sebelum memulai Gugus, kita perlu memformat Hadoop NN di sistem lokal kami di mana ia telah diinstal. Biasanya, itu akan dilakukan pada tahap awal sebelum memulai cluster pertama kali.

Memformat Nn akan menyebabkan hilangnya data di NN Metastore, jadi kita harus lebih berhati -hati, kita tidak boleh memformat Nn saat cluster berjalan kecuali dibutuhkan dengan sengaja.

# CD $ HADOOP_PREFIX # bin/Hadoop Namenode -Format 
Format sistem file HDFS

14. Awal Namenode Daemon dan Datanode Daemon: (port 50070).

# CD $ HADOOP_PREFIX # SBIN/Start-DFS.SH 
Mulailah namenode dan daemon data

15. Awal Manajer Sumber Daya Daemon dan NodeManager Daemon: (port 8088).

# SBIN/Start-Yarn.SH 
Mulailah Daemon ResourceManager dan NodeManager

16. Untuk menghentikan semua layanan.

# SBIN/STOP-DFS.SH # SBIN/STOP-DFS.SH 
Ringkasan

Ringkasan
Di artikel ini, kami telah melalui proses langkah demi langkah untuk mengatur Hadoop Pseudonode (Simpul tunggal) Gugus. Jika Anda memiliki pengetahuan dasar tentang Linux dan mengikuti langkah -langkah ini, cluster akan naik dalam 40 menit.

Ini bisa sangat berguna bagi pemula untuk mulai belajar dan berlatih Hadoop atau versi vanilla ini Hadoop dapat digunakan untuk tujuan pengembangan. Jika kita ingin memiliki cluster real-time, baik kita membutuhkan setidaknya 3 server fisik di tangan atau harus menyediakan cloud untuk memiliki banyak server.