हडोप के साथ अपाचे स्पार्क - यह क्यों मायने रखता है?

शीर्ष कंपनियों द्वारा बड़े पैमाने पर हडोप के साथ अपाचे स्पार्क का कार्यान्वयन इसे वास्तविक समय प्रसंस्करण के लिए सफलता और इसकी क्षमता को इंगित करता है।

Hadoop, डेटा प्रोसेसिंग फ्रेमवर्क जो अपने आप में एक प्लेटफ़ॉर्म बन जाता है, जब अच्छे घटक इससे जुड़े होते हैं तो यह और भी बेहतर हो जाता है। Hadoop के कुछ कमियों, जैसे Hadoop के MapReduce घटक में वास्तविक समय डेटा विश्लेषण के लिए धीमा होने के लिए एक प्रतिष्ठा है।





Apache Spark, एक Hadoop- आधारित डाटा प्रोसेसिंग इंजन जिसे बैच और स्ट्रीमिंग वर्कलोड दोनों के लिए डिज़ाइन किया गया है, अब इसके 1.0 वर्जन में तैयार किया गया है और इसमें ऐसे फीचर्स दिए गए हैं जो इस बात की मिसाल देते हैं कि Hadoop को किस तरह के काम में शामिल किया जा रहा है। स्पार्क मौजूदा Hadoop समूहों के शीर्ष पर चलता है ताकि उन्नत और अतिरिक्त कार्यक्षमता प्रदान की जा सके।

आइए स्पार्क की प्रमुख विशेषताओं पर ध्यान दें और यह कैसे Hadoop के साथ काम करता है और



अपाचे स्पार्क प्रमुख लाभ:

img2-R

स्पार्क की भयानक विशेषताएं:

  • Hadoop एकीकरण - स्पार्क एचडीएफएस में संग्रहित फाइलों के साथ काम कर सकता है।
  • स्पार्क का इंटरएक्टिव शेल - स्पार्क को स्काला में लिखा गया है, और इसके पास स्काला दुभाषिया का अपना संस्करण है।
  • स्पार्क का एनालिटिक सूट - स्पार्क इंटरैक्टिव क्वेरी विश्लेषण, बड़े पैमाने पर ग्राफ प्रसंस्करण और विश्लेषण और वास्तविक समय विश्लेषण के लिए उपकरणों के साथ आता है।
  • लचीला वितरित डेटासेट (RDD) - RDD ऐसी वस्तुएं वितरित की जाती हैं, जिन्हें कंप्यूट नोड्स के क्लस्टर में, मेमोरी में कैश्ड किया जा सकता है। वे स्पार्क में प्रयुक्त प्राथमिक डेटा ऑब्जेक्ट हैं।
  • वितरित संचालक - MapReduce के अलावा, कई अन्य ऑपरेटर हैं जो RDD के उपयोग कर सकते हैं।

Hadoop के साथ Apache Spark के उपयोग के लाभ:

कैसे झांकी में पैरामीटर बनाने के लिए
  • अपाचे स्पार्क Hadoop ओपन-सोर्स समुदाय में फिट बैठता है, Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) के ऊपर बिल्डिंग। हालांकि, स्पार्क दो चरणों के मैपरेड्यूस प्रतिमान से बंधा नहीं है, और कुछ अनुप्रयोगों के लिए हडोप मैपराइड की तुलना में 100 गुना तेज प्रदर्शन का वादा करता है।



  • मशीन लर्निंग एल्गोरिदम के अनुकूल - स्पार्क इन-मेमोरी क्लस्टर कंप्यूटिंग के लिए प्रिमिटिव प्रदान करता है जो उपयोगकर्ता प्रोग्राम को क्लस्टर की मेमोरी में डेटा लोड करने और इसे बार-बार क्वेरी करने की अनुमति देता है।

  • 100 बार तेज दौड़ें - स्पार्क, विश्लेषण सॉफ्टवेयर भी नौकरियों की गति बढ़ा सकता है जो हडोप डेटा-प्रोसेसिंग प्लेटफॉर्म पर चलती है। 'Hadoop स्विस आर्मी चाकू' को डब किया गया, Apache Spark डेटा-विश्लेषण नौकरियों को बनाने की क्षमता प्रदान करता है जो मानक Apache Hadoop MapReduce पर चलने वालों की तुलना में 100 गुना तेजी से चल सकती हैं। Hadoop समूहों में एक अड़चन के रूप में MapReduce की व्यापक रूप से आलोचना की गई है क्योंकि यह बैच मोड में नौकरियों को निष्पादित करता है, जिसका अर्थ है कि डेटा का वास्तविक समय विश्लेषण संभव नहीं है।

  • MapReduce के लिए वैकल्पिक - स्पार्क MapReduce का विकल्प प्रदान करता है। यह माइक्रो-बैचों की छोटी फटने वाली नौकरियों को अंजाम देता है जो पांच सेकंड या उससे कम होती हैं। यह रियल-टाइम, स्ट्रीम-ओरिएंटेड Hadoop फ्रेमवर्क जैसे ट्विटर स्टॉर्म की तुलना में अधिक स्थिरता प्रदान करता है। सॉफ्टवेयर का उपयोग विभिन्न प्रकार की नौकरियों के लिए किया जा सकता है, जैसे कि लाइव डेटा का निरंतर विश्लेषण और सॉफ़्टवेयर लाइब्रेरी के लिए धन्यवाद, अधिक कम्प्यूटेशनल रूप से गहराई से काम करना जिसमें मशीन लर्निंग और ग्राफ़ प्रोसेसिंग शामिल हैं।

  • एकाधिक भाषाओं के लिए समर्थन - स्पार्क का उपयोग करके, डेवलपर्स 80 से अधिक उच्च-स्तरीय ऑपरेटरों के सेट का उपयोग करके, जावा, स्काला या पायथन में डेटा-विश्लेषण नौकरियों को लिख सकते हैं।

  • पुस्तकालय समर्थन - स्पार्क के पुस्तकालयों को Hadoop के नवीनतम व्यावसायिक रूप से समर्थित तैनाती के साथ अधिक आक्रामक तरीके से खोजे जाने वाले प्रसंस्करण नौकरियों के प्रकारों के पूरक के लिए डिज़ाइन किया गया है। MLlib सामान्य मशीन लर्निंग एल्गोरिदम के एक प्रकार को लागू करता है, जैसे कि भोले बायेसियन वर्गीकरण या क्लस्टरिंग स्पार्क स्ट्रीमिंग कई स्रोतों से प्राप्त डेटा की उच्च गति प्रसंस्करण को सक्षम करता है और ग्राफएक्स ग्राफ डेटा पर कम्प्यूटेशन के लिए अनुमति देता है।

  • स्थिर एपीआई - 1.0 संस्करण के साथ, अपाचे स्पार्क एक स्थिर एपीआई (एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस) प्रदान करता है, जिसे डेवलपर्स स्पार्क के साथ बातचीत करने के लिए उपयोग कर सकते हैं हालांकि अपने स्वयं के अनुप्रयोग। यह Hadoop आधारित तैनाती में तूफान को अधिक आसानी से उपयोग करने में मदद करता है।

    जावा का उपयोग करके सेलेनियम वेबड्राइवर में स्क्रीनशॉट कैसे लें
  • स्पार्क SQL घटक - संरचित डेटा तक पहुंचने के लिए स्पार्क एसक्यूएल घटक, डेटा को विश्लेषण कार्य में असंरचित डेटा के साथ पूछताछ करने की अनुमति देता है। स्पार्क एसक्यूएल, जो फिलहाल केवल अल्फा में है, अपाचे हाइव में संग्रहीत डेटा के खिलाफ एसक्यूएल जैसे प्रश्नों को चलाने की अनुमति देता है। SQL प्रश्नों के माध्यम से Hadoop से डेटा निकालना अभी तक Hadoop के आसपास आने वाली वास्तविक समय की क्वेरी कार्यक्षमता का एक और प्रकार है।

  • Hadoop [HDFS, HBASE और YARN] के साथ Apache Spark की संगतता - अपाचे स्पार्क, Hadoop के डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) के साथ पूरी तरह से संगत है, साथ ही अन्य Hadoop घटकों जैसे YARN (फिर भी एक अन्य संसाधन वार्ताकार) और HBase वितरित डेटाबेस के साथ।

उद्योग सहायक:

आईटी कंपनियों जैसे क्लोदेरा, पिवटेल, आईबीएम, इंटेल और मैपआर ने स्पार्क को अपने हडोप स्टैक में बदल दिया है। स्पार्क के कुछ डेवलपर्स द्वारा स्थापित एक कंपनी डाटैब्रिक्स सॉफ्टवेयर के लिए वाणिज्यिक समर्थन प्रदान करती है। याहू और नासा दोनों, अन्य लोगों के बीच, दैनिक डेटा संचालन के लिए सॉफ्टवेयर का उपयोग करते हैं।

निष्कर्ष:

स्पार्क को जो पेशकश करनी है, वह हैडो के उपयोगकर्ताओं और वाणिज्यिक विक्रेताओं दोनों के लिए एक बड़ा आकर्षण है। जो उपयोगकर्ता Hadoop को कार्यान्वित करना चाह रहे हैं और जिन्होंने Hadoop के आस-पास अपनी कई विश्लेषिकी प्रणालियों का निर्माण कर लिया है, वे Hadoop को वास्तविक समय प्रसंस्करण प्रणाली के रूप में उपयोग करने में सक्षम होने के विचार से आकर्षित होते हैं।

स्पार्क 1.0 उन्हें मालिकाना वस्तुओं के समर्थन या निर्माण के लिए एक और किस्म की कार्यक्षमता प्रदान करता है। वास्तव में, एक बड़े तीन Hadoop विक्रेताओं, Cloudera, पहले से ही अपने Cloudera एंटरप्राइज़ की पेशकश के माध्यम से स्पार्क के लिए वाणिज्यिक समर्थन प्रदान करता रहा है। हॉर्टोनवर्क भी स्पार्क को अपने हेडो वितरण के एक घटक के रूप में पेश कर रहा है। शीर्ष कंपनियों द्वारा बड़े पैमाने पर स्पार्क का कार्यान्वयन इसकी सफलता और इसकी संभावना को इंगित करता है जब यह वास्तविक समय प्रसंस्करण के लिए आता है।

क्या आप हमसे कोई प्रश्न पूछना चाहते हैं? उन्हें टिप्पणी अनुभाग में उल्लेख करें और हम आपके पास वापस आ जाएंगे।

संबंधित पोस्ट:

एक इंट में डबल कैसे चालू करें