Friday, August 15, 2014

हडूप (HADOOP) भाग - ५



मॅप रिड्यूस

मॅप आणि रिड्यूस अशा दोन प्रणालींचा वापर करून येणार्‍या माहितीतून आवश्यक ते निष्कर्ष काढले जातात.

मॅपिंग  प्रणाली
माहितीचा साठा वा विष्लेषण करताना प्रत्येक माहिती घटकास एक विशिष्ट संदर्भ क्रमांक ( पासवर्डसारखा अक्षरे व अंक यांचा समावेश असणारा व माहितीचे स्थान दर्शविणारा)  दिला जातो. याला की असे म्हणतात तर प्रत्यक्ष माहितीघटकाला व्हॅल्यु असे म्हणतात. म्हणजे प्रत्येक माहिती घटकाचे वर्णन की आणि व्हॅल्यु अशा जोडीने केले जाते. संकलित केल्या जाणार्‍या माहितीच्या घटकांनुसार की-व्हॅल्यु च्या जोड्यांची यादी इनपुट म्हणून नोंदली जाते व त्यावर आवश्यकतेनुसार संस्कार करून आऊटपुट यादीमध्ये रुपांतर करण्याचे कार्य मॅपिंग या प्रणालीद्वारे केले जाते.

 
उदाहरणार्थ इनपुट माहितीतील विशिष्ट शब्द वा संज्ञा यांची संख्या यांची मोजदाद करायची असेल तर  प्रत्येक इनपुट माहिती घटकातील संख्या,  की आणि व्हॅल्यु या स्वरुपात आऊटपुट यादीत मांडली जाते.  इनपुट माहितीघटकांचे आवश्यकतेनुसार विश्लेषण करून येणार्‍या निष्कर्षांची आऊटपुट यादी बनविणे हे मॅपिंग प्रणालीचे काम असते.
रिड्यूस प्रणाली
रिड्यूस प्रणालीमध्ये अशा आउटपुट यादीतील निष्कर्षांचे एकत्रीकरण  ( Aggregation)  केले जाते.

 

शफलिंग ( अदलाबदल)
अनेक कॉम्प्युटर्सवरून तयार झालेले निष्कर्ष जसेच्या तसे न वापरता त्यांची अदलाबदल ( शफलिंग ) करून निष्कर्षांचे  नवे गट केले जातात. यामुळे एखाद्या कॉम्प्युटरवरील माहितीत दोष निर्माण झाला असेल तरीही त्याचा  परिणाम एका पूर्ण गटावर होत नाही व  प्रत्येक गटातून योग्य निष्कर्ष निवडण्याची प्रक्रिया करणे शक्य होते.

संकलित होणार्‍या माहितीचे अनेक भाग वेगवेगळ्या कॉम्प्युटर्स वर वितरित होऊन तेथे स्थानिक पातळीवर मॅप रिड्यूस द्वारे निष्कर्ष जमा केले जात असल्याने कामाची गती कितीही वाढविता येते.
 

No comments:

Post a Comment