Saturday, August 9, 2014

हडूप (HADOOP) भाग - १

हडूप (HADOOP)- माहिती विश्लेषणाचे आधुनिक साधन



गुगल वेबसाईटवरील सर्च बॉक्समध्ये  आपण कोणताही शब्दसंच टाकला की क्षणार्धात त्याविषय़ी माहिती असणार्‍या हजारो वेबपेजेसची यादी आपल्याला दिसते. गुगल हे कसे काय करू शकते असा प्रश्न आपल्याला पडतो.

गुगलने यासाठी इंटरनेटवरील सर्व अद्ययावत माहितीचे संकलन व विश्लेषण करण्यासाठी एक व्यापक शोधप्रणाली  ( सर्च इंजिन ) इ. स. २००० मध्ये विकसित केली. जगातील सर्व वेबसाईट्सला भेट देऊन त्यातील प्रत्येक पानावरील माहिती एकत्र करून अनेक कॉम्प्युटरवर त्याचा साठा करणे,  त्याचे संदर्भानुसार वर्गीकरण करून क्रम लावण्याचे कार्य या गुगलची शोधप्रणालीद्वारे सतत केले जाते. त्यामुळे त्याच्या या वर्गीकरण केलेल्या तयार माहितीकोषातून शब्दसंचाशी सुसंगत माहिती असणार्‍या वेबपेजेसची यादी त्वरित तयार करणे गुगल शोधप्रणालीस शक्य होते.

 अर्थात इंटरनेटच्या विस्ताराबरोबर वेबसाईटची संख्याही प्रचंड वेगाने वाढू लागली व  माहिती साठविणे व वर्गीकरण करण्याच्य़ा रूढ पद्धतींचा वापर करणे दिवसेंदिवस अवघड होऊ लागले. यावर उपाय म्हणून गुगलने आपल्या शोधप्रणालीत आमूलाग्र बदल केले. गोळा केलेल्या माहितीचे अनेक भाग करून ते एकाचवेळी अनेक कॉम्प्युटर ( सर्व्हर) वर साठविण्यासाठी गुगल फाईल सिस्टीम (GFS) आणि या सर्व माहितीची संदर्भ क्रमांक यादी करणारा मॅप रिड्यूस (Map Reduce)  नावाचा प्रोग्रॅम या दोन सुविधा वापरून गुगल शोधप्रणाली अद्ययावत व सक्षम बनविण्यात आली. इ. स. २००४ मध्ये गुगलने आपले हे शोधकार्य प्रसिद्ध केले. मात्र ही शोधप्रणाली गुगलच्या मालकीची असल्याने इतरांना याचा वापर करणे शक्य नव्हते.

याचसुमारास डॉन कटींग हा संशोधक  त्यावेळी नच (Nutch)  या मुक्त शोधप्रणालीवर काम करीत होता त्याने वेबसाईटला भेट देणार्‍या क्रॉलर या प्रोग्रॅममध्ये माहिती संकलन व विश्लेषण याचे कार्य समाविष्ट करून मॅप रिड्यूसचा नवा अवतार प्रसिद्ध केला त्याला त्याने आपल्या मुलाच्या खेळण्यातील हत्तीचे नाव ’हडूप’(HADOOP)  असे दिले. गुगलपेक्षा ज्येष्ठ असणार्‍या याहू या कंपनीला गुगलशी स्पर्धा करण्यासाठी अशा शोधप्रणालीची गरज होती. त्यामुळे याहूने कटींगच्या या मुक्त प्रणालीचा पुरस्कार करून इ. स. २००६ मध्ये हडूपचे सर्व प्रोग्रॅम संशोधकांसाठी खुले करून त्यांचा  व्यावसायिक वेबसाईट कंपन्यांना वापर करण्यास संधी दिली.

 सध्या हडूप ही मुक्त शोधप्रणाली अपाचे सॉफ्टवेअर फौंडेशनतर्फे सर्वांसाठी खुली करण्यात आली आहे. इ. स. २००८ मध्ये अपाचे हडूपचा व्यावसायिक दृष्टीने विकास करण्यासाठी क्लौडेरा (Cloudera)  या कंपनीची स्थापना करण्यात आली. माहितीचे संकलन, जतन व विश्लेषण करण्याच्या नव्या पद्धतींचा व्यावसायिक क्षेत्रास परिचय करून देणे हा या कंपनीचा उद्देश आहे. कारण भविष्यात उद्योग, व्यापार, संरक्षण व इतर सर्व क्षेत्रात या माहिती तंत्रज्ञानातील नव्या पद्धतींमुळे फार मोठे फेरबदल होणार आहेत. आर्थिक लाभाबरोबर कार्यक्षमतेतही भरपूर वाढीस वाव असल्याने थोड्याच काळात हडूप प्रणालीचा वापर सर्व ठिकाणी होणे हितावह आहे.

No comments:

Post a Comment