Cara Menginstal Hadoop Single Node Cluster (pseudonode) di Centos 7
- 3706
- 16
- Daryl Hermiston DVM
Hadoop adalah kerangka kerja open-source yang banyak digunakan untuk ditangani Data besar. Sebagian besar BigData/Analisis Data proyek sedang dibangun di atas Sistem Ekis Hadoop. Itu terdiri dari dua lapis, satu untuk Menyimpan data dan yang lainnya adalah untuk Mengolah data.
Penyimpanan akan diurus dengan sistem file sendiri yang dipanggil HDFS (Hadoop membagikan sistem file) Dan Pengolahan akan diurus oleh BENANG (Namun negosiator sumber daya lainnya). Mapreduce adalah mesin pemrosesan default dari Sistem Ekis Hadoop.
Artikel ini menjelaskan proses untuk menginstal Pseudonode pemasangan Hadoop, dimana semua Daemon (JVM) akan berjalan Simpul tunggal Cluster on Centos 7.
Ini terutama bagi pemula untuk belajar Hadoop. Secara real-time, Hadoop akan diinstal sebagai cluster multinode di mana data akan didistribusikan di antara server sebagai blok dan pekerjaan akan dieksekusi secara paralel.
Prasyarat
- Instalasi minimal server Centos 7.
- Java V1.8 rilis.
- Hadoop 2.x Rilis stabil.
Di halaman ini
- Cara menginstal java di centos 7
- Siapkan Login Tanpa Kata Sandi di Centos 7
- Cara Menginstal Hadoop Single Node di Centos 7
- Cara Mengkonfigurasi Hadoop di Centos 7
- Memformat sistem file HDFS melalui namenode
Memasang Java di Centos 7
1. Hadoop adalah sebuah sistem eko yang terdiri dari Jawa. Kita butuh Jawa terpasang di sistem kami secara wajib untuk menginstal Hadoop.
# yum instal java-1.8.0-OPENJDK
2. Selanjutnya, verifikasi versi yang diinstal Jawa pada sistem.
# java -versionVerifikasi Java Version
Konfigurasikan Login Tanpa Kata Sandi di Centos 7
Kita perlu mengonfigurasi ssh di mesin kita, Hadoop akan mengelola node dengan penggunaan Ssh. Penggunaan Master Node Ssh Koneksi untuk menghubungkan node budaknya dan melakukan operasi seperti Start dan Stop.
Kita perlu mengatur ssh kurang kata sandi sehingga master dapat berkomunikasi dengan budak menggunakan ssh tanpa kata sandi. Jika tidak untuk setiap pembentukan koneksi, perlu memasukkan kata sandi.
Di simpul tunggal ini, Menguasai jasa (Namenode, Namenode sekunder & Manajer Sumber Daya) Dan Budak jasa (Datanode & NodeManager) akan berjalan terpisah JVM. Meskipun itu adalah Singe Node, kita perlu memiliki SSH tanpa kata sandi untuk membuat Menguasai untuk berkomunikasi Budak tanpa otentikasi.
3. Atur login SSH tanpa kata sandi menggunakan perintah berikut di server.
# ssh-keygen # ssh-copy-id -i localhostBuat Keygen SSH di Centos 7 Salin Kunci SSH ke Centos 7
4. Setelah Anda mengonfigurasi login SSH tanpa kata sandi, cobalah untuk masuk lagi, Anda akan terhubung tanpa kata sandi.
# SSH LocalhostSSH Login Tanpa Kata Sandi ke Centos 7
Memasang Hadoop di Centos 7
5. Buka situs web Apache Hadoop dan unduh rilis stabil Hadoop menggunakan perintah wget berikut.
# wget https: // arsip.Apache.org/dist/hadoop/core/hadoop-2.10.1/Hadoop-2.10.1.ter.GZ # TAR XVPZF HADOOP-2.10.1.ter.GZ
6. Selanjutnya, tambahkan Hadoop Variabel lingkungan di ~/.Bashrc
file seperti yang ditunjukkan.
Hadoop_prefix =/root/hadoop-2.10.1 path = $ path: $ hadoop_prefix/bin Jalur ekspor java_home hadoop_prefix
7. Setelah menambahkan variabel lingkungan ke ~/.Bashrc
file, sumber file dan verifikasi hadoop dengan menjalankan perintah berikut.
# Sumber ~/.BASHRC # CD $ HADOOP_PREFIX # BIN/HADOOP VersiPeriksa versi Hadoop di Centos 7
Mengkonfigurasi Hadoop di Centos 7
Kami perlu mengkonfigurasi file konfigurasi hadoop di bawah ini agar sesuai dengan mesin Anda. Di dalam Hadoop, Setiap layanan memiliki nomor port sendiri dan direktori sendiri untuk menyimpan data.
- File Konfigurasi Hadoop - Situs Inti.XML, HDFS-Site.xml, situs mapred.xml & situs benang.xml
8. Pertama, kita perlu memperbarui Java_home
Dan Hadoop jalur di Hadoop-env.SH file seperti yang ditunjukkan.
# cd $ hadoop_prefix/etc/hadoop # vi hadoop-env.SH
Masukkan baris berikut di awal file.
Ekspor java_home =/usr/lib/jvm/java-1.8.0/JRE Ekspor Hadoop_prefix =/root/hadoop-2.10.1
9. Selanjutnya, ubah situs inti.xml
mengajukan.
# cd $ hadoop_prefix/etc/hadoop # vi-situs inti.xml
Tempel diikuti antara tag seperti yang ditunjukkan.
FS.defaultfs hdfs: // localhost: 9000
10. Buat direktori di bawah di bawah tecmint
Direktori Rumah Pengguna, yang akan digunakan untuk Nn Dan Dn penyimpanan.
# mkdir -p/home/tecmint/hdata/ # mkdir -p/home/tecmint/hdata/data # mkdir -p/home/tecmint/hdata/name
10. Selanjutnya, ubah HDFS-SITE.xml
mengajukan.
# CD $ HADOOP_PREFIX/ETC/HADOOP # VI HDFS-SITE.xml
Tempel diikuti antara tag seperti yang ditunjukkan.
dfs.Replikasi 1 DFS.namenode.nama.dir/home/tecmint/hdata/nama dfs .datanode.data.Dir Home/Tecmint/HData/Data
11. Sekali lagi, ubah Situs Mapred.xml
mengajukan.
# CD $ HADOOP_PREFIX/ETC/HADOOP # CP MAPRED-SITE.xml.Template situs mapred.xml # vi-situs mapred.xml
Tempel diikuti antara tag seperti yang ditunjukkan.
Mapreduce.kerangka.Nama benang
12. Terakhir, ubah situs benang.xml
mengajukan.
# cd $ hadoop_prefix/etc/hadoop # vi-situs benang.xml
Tempel diikuti antara tag seperti yang ditunjukkan.
benang.NodeManager.aux-services mapreduce_shuffle
Memformat sistem file HDFS melalui namenode
13. Sebelum memulai Gugus, kita perlu memformat Hadoop NN di sistem lokal kami di mana ia telah diinstal. Biasanya, itu akan dilakukan pada tahap awal sebelum memulai cluster pertama kali.
Memformat Nn akan menyebabkan hilangnya data di NN Metastore, jadi kita harus lebih berhati -hati, kita tidak boleh memformat Nn saat cluster berjalan kecuali dibutuhkan dengan sengaja.
# CD $ HADOOP_PREFIX # bin/Hadoop Namenode -FormatFormat sistem file HDFS
14. Awal Namenode Daemon dan Datanode Daemon: (port 50070).
# CD $ HADOOP_PREFIX # SBIN/Start-DFS.SHMulailah namenode dan daemon data
15. Awal Manajer Sumber Daya Daemon dan NodeManager Daemon: (port 8088).
# SBIN/Start-Yarn.SHMulailah Daemon ResourceManager dan NodeManager
16. Untuk menghentikan semua layanan.
# SBIN/STOP-DFS.SH # SBIN/STOP-DFS.SH
Ringkasan
Ringkasan
Di artikel ini, kami telah melalui proses langkah demi langkah untuk mengatur Hadoop Pseudonode (Simpul tunggal) Gugus. Jika Anda memiliki pengetahuan dasar tentang Linux dan mengikuti langkah -langkah ini, cluster akan naik dalam 40 menit.
Ini bisa sangat berguna bagi pemula untuk mulai belajar dan berlatih Hadoop atau versi vanilla ini Hadoop dapat digunakan untuk tujuan pengembangan. Jika kita ingin memiliki cluster real-time, baik kita membutuhkan setidaknya 3 server fisik di tangan atau harus menyediakan cloud untuk memiliki banyak server.
- « Menyiapkan Prasyarat Hadoop dan Pengerasan Keamanan - Bagian 2
- Apa itu MongoDB? Bagaimana cara kerja MongoDB? »