हडूप कार्यपद्धतीची ओळख होण्यासाठी एक छोटे उदाहरण घेऊ या.
समजा तीन कॉम्प्युटर्सचा एक समूह माहिती साठविण्यासाठी वापरला आहे व त्यावरील हार्डडिस्क्मध्ये माहिती साठविण्यासाठी २०० ते ३००, ५०० ते ६०० आणि ८०० ते ९०० असे स्मृतीकोष आहेत.
आता Dnyandeep Education & Research Foundation या माहिती संचातील अक्षरांची संख्या आपल्याला काढायची आहे. सर्वप्रथम HDFS तर्फे या माहिती संचाचे तुकडे करून त्याच्या तीन प्रती विविध ठिकाणी तीनही कॉम्प्युटर्सच्या हार्डडिस्कमध्ये साठविल्या जातील. समजा त्यांची स्थाने खालीलप्रमाणे आहेत.
१. Dnyandeep -२३५,५७६,८१३
२. Education - २५४,५४१,८३७
३. & - २७९, ५१०,८७५
४. Research - २४९,५९१,८९४
५. Foundation - २६८, ५२९, ८५३
आता इनपुट यादीतील की व डाटा व्हॅल्यु खालीलप्रमाणे असतील
मॅपिंग प्रणालीतर्फे या कॉम्प्युटर्स वरील माहिती संचातील अक्षरांची संख्या प्रत्येक बाबतीत वेगवेगळी काढली जाईल (प्रत्येक शब्दातील अक्षरांची संख्या काढणे हे एक टास्क असेल.)
१) २३५-९, २५४-१०,२७९-१,२४९-८,२६८-१०
२) ५७६-९,५४१-१०,५१०-१,५९१-८,५२९-१०
३) ८१३-९,८३७-१०,८७५-१,८९४-८,८५३-१०
या झाल्या आऊटपुट याद्या
आता रिड्यूस प्रणालीतर्फे कॉम्प्युटरवरील माहिती संचांतील अक्षरांच्या संख्यांची बेरीज करून नवी निष्कर्ष यादी तयार करेल.
पहिल्या कॉम्प्युटरचे संख्यांची बेरीज करण्याचे कार्य चालू असताना २५४ या स्थानावर असलेली आउतपुट यादीतील माहिती वाचण्यात अडथळा आला तर ५४१ या स्थानावरील दुसर्या प्रतीचा वा ८३७ वरील तिसर्या प्रतीचा उपयोग केला जाईल. हीच क्रिया सर्व शब्द वाचून पूर्ण होईपर्यंत केली जाईल व शेवटी उत्तर ३८ हे वेगळ्या स्थानावर साठविले जाईल.
सूचना - वरील उदाहरणात मी मला समजलेल्या हडूपच्या कार्यपद्धतीचे वर्णन केले आहे यात चूक असण्याची शक्यता आहे. तज्ज्ञांनी याबाबतीत काही बदल हवा असल्यास अवश्य कळवावे. म्हणजे वरील उदाहरणात योग्य तो बदल करता येईल.
समजा तीन कॉम्प्युटर्सचा एक समूह माहिती साठविण्यासाठी वापरला आहे व त्यावरील हार्डडिस्क्मध्ये माहिती साठविण्यासाठी २०० ते ३००, ५०० ते ६०० आणि ८०० ते ९०० असे स्मृतीकोष आहेत.
आता Dnyandeep Education & Research Foundation या माहिती संचातील अक्षरांची संख्या आपल्याला काढायची आहे. सर्वप्रथम HDFS तर्फे या माहिती संचाचे तुकडे करून त्याच्या तीन प्रती विविध ठिकाणी तीनही कॉम्प्युटर्सच्या हार्डडिस्कमध्ये साठविल्या जातील. समजा त्यांची स्थाने खालीलप्रमाणे आहेत.
१. Dnyandeep -२३५,५७६,८१३
२. Education - २५४,५४१,८३७
३. & - २७९, ५१०,८७५
४. Research - २४९,५९१,८९४
५. Foundation - २६८, ५२९, ८५३
आता इनपुट यादीतील की व डाटा व्हॅल्यु खालीलप्रमाणे असतील
Key - Data value | Key - Data value | Key - Data value |
२३५ ->Dnyandeep २५४->Education २७९->& २४९->Research २६८->Foundation | ५७६ ->Dnyandeep ५४१->Education ५१०->& ५९१->Research ५२९->Foundation | ८१३ ->Dnyandeep ८३७->Education ८७५->& ८९४->Research ८५३->Foundation |
मॅपिंग प्रणालीतर्फे या कॉम्प्युटर्स वरील माहिती संचातील अक्षरांची संख्या प्रत्येक बाबतीत वेगवेगळी काढली जाईल (प्रत्येक शब्दातील अक्षरांची संख्या काढणे हे एक टास्क असेल.)
१) २३५-९, २५४-१०,२७९-१,२४९-८,२६८-१०
२) ५७६-९,५४१-१०,५१०-१,५९१-८,५२९-१०
३) ८१३-९,८३७-१०,८७५-१,८९४-८,८५३-१०
या झाल्या आऊटपुट याद्या
आता रिड्यूस प्रणालीतर्फे कॉम्प्युटरवरील माहिती संचांतील अक्षरांच्या संख्यांची बेरीज करून नवी निष्कर्ष यादी तयार करेल.
पहिल्या कॉम्प्युटरचे संख्यांची बेरीज करण्याचे कार्य चालू असताना २५४ या स्थानावर असलेली आउतपुट यादीतील माहिती वाचण्यात अडथळा आला तर ५४१ या स्थानावरील दुसर्या प्रतीचा वा ८३७ वरील तिसर्या प्रतीचा उपयोग केला जाईल. हीच क्रिया सर्व शब्द वाचून पूर्ण होईपर्यंत केली जाईल व शेवटी उत्तर ३८ हे वेगळ्या स्थानावर साठविले जाईल.
सूचना - वरील उदाहरणात मी मला समजलेल्या हडूपच्या कार्यपद्धतीचे वर्णन केले आहे यात चूक असण्याची शक्यता आहे. तज्ज्ञांनी याबाबतीत काही बदल हवा असल्यास अवश्य कळवावे. म्हणजे वरील उदाहरणात योग्य तो बदल करता येईल.
No comments:
Post a Comment