Friday, August 15, 2014

हडूप (HADOOP) भाग - ६

 हडूप कार्यपद्धतीची ओळख होण्यासाठी एक छोटे उदाहरण घेऊ या.

 समजा तीन कॉम्प्युटर्सचा एक समूह माहिती साठविण्यासाठी वापरला आहे व त्यावरील हार्डडिस्क्मध्ये माहिती साठविण्यासाठी २०० ते ३००, ५०० ते ६०० आणि ८०० ते ९०० असे स्मृतीकोष आहेत.

आता Dnyandeep Education & Research Foundation या माहिती संचातील अक्षरांची संख्या आपल्याला काढायची आहे. सर्वप्रथम HDFS तर्फे या माहिती संचाचे तुकडे करून त्याच्या तीन प्रती विविध ठिकाणी तीनही  कॉम्प्युटर्सच्या हार्डडिस्कमध्ये साठविल्या जातील. समजा त्यांची स्थाने खालीलप्रमाणे आहेत.

१. Dnyandeep -२३५,५७६,८१३
२. Education  - २५४,५४१,८३७
३. & - २७९, ५१०,८७५
४. Research - २४९,५९१,८९४
५. Foundation - २६८, ५२९, ८५३
 आता इनपुट यादीतील की व डाटा व्हॅल्यु खालीलप्रमाणे असतील
  
Key - Data value Key - Data value Key - Data value
२३५ ->Dnyandeep

२५४->Education

२७९->&

२४९->Research

२६८->Foundation
 ५७६ ->Dnyandeep

५४१->Education

५१०->&

५९१->Research

५२९->Foundation
८१३ ->Dnyandeep

८३७->Education

८७५->&

८९४->Research

८५३->Foundation


मॅपिंग प्रणालीतर्फे या कॉम्प्युटर्स वरील माहिती संचातील अक्षरांची संख्या प्रत्येक बाबतीत वेगवेगळी काढली जाईल (प्रत्येक शब्दातील अक्षरांची संख्या काढणे हे एक टास्क असेल.)
१) २३५-९, २५४-१०,२७९-१,२४९-८,२६८-१०
२) ५७६-९,५४१-१०,५१०-१,५९१-८,५२९-१०
३) ८१३-९,८३७-१०,८७५-१,८९४-८,८५३-१०
या झाल्या आऊटपुट याद्या

आता रिड्यूस प्रणालीतर्फे  कॉम्प्युटरवरील माहिती संचांतील अक्षरांच्या संख्यांची बेरीज करून नवी निष्कर्ष यादी तयार करेल.

पहिल्या कॉम्प्युटरचे संख्यांची बेरीज करण्याचे कार्य चालू असताना २५४ या स्थानावर असलेली आउतपुट यादीतील माहिती वाचण्यात अडथळा आला तर ५४१ या स्थानावरील दुसर्‍या प्रतीचा वा ८३७ वरील तिसर्‍या प्रतीचा उपयोग केला जाईल. हीच क्रिया सर्व शब्द वाचून पूर्ण होईपर्यंत केली जाईल व शेवटी उत्तर ३८ हे वेगळ्या स्थानावर साठविले जाईल.

सूचना - वरील उदाहरणात मी मला समजलेल्या हडूपच्या कार्यपद्धतीचे वर्णन केले आहे यात चूक असण्याची शक्यता आहे. तज्ज्ञांनी याबाबतीत काही बदल हवा असल्यास अवश्य कळवावे. म्हणजे वरील उदाहरणात योग्य तो बदल करता येईल.


No comments:

Post a Comment