Saturday, September 27, 2014

गुगल गाळणी (परकोलेटर) भाग - २

डाटाबेस(Database) -  माहिती साठविण्यासाठी डाटाबेस वापरले जातात. या डाटाबेसमध्ये  प्रत्येक  प्रकारची माहिती वेगवेगळ्या टेबलमध्ये नोंदली जाते.  टेबलची रचना आडव्या ओळी(Rows) व उभे रकाने (Columns) असणार्‍या तक्त्याप्रमाणे असते. प्रत्येक आडव्या ओळीत एक माहिती संच (Record)असतो. व त्यातील प्रत्येक घटक वेगवेगळ्या विशिष्ट रकान्यांमध्ये (Fields) नोंदविला जातो.  अशा सुनियोजित माहिती संचामुळे  डाटाबेसमध्ये माहिती भरणे, त्यात बदल करणे व त्याचे विश्लेषण करून विविध अहवाल करणे सोपे जाते. मात्र माहितीचा आवाका फार मोठा असेल तर अशा एकसंध डाटाबेसमधील टेबलमधील रेकार्डची संख्या प्रचंड वाढते व त्यामुळे या डाटाबेसचा उपयोग करून आवश्यक  माहिती मिळविण्यासाठी फार अवधी लागतो. वेबसाईटवरील माहिती ही टेक्स्ट, आकृत्या,  चित्रे, ध्वनी,  व्हिडीओ अशा विविध प्रकारची असते व त्यातही प्रत्येक वेबसाईटवरील माहितीतही विविधता असते. त्यामुळे वेबसाईट शोधप्रणालीसाठी डाटाबेसचा वापर करणे शक्य होत नाही.

यावर उपाय म्हणून बिग टेबल  (Big Table) या नव्या माहितीसंकलन पद्धतीचा वापर केला जातॊ. यात आडव्या ओळी व उभे रकाने अशीच रचना असली तरी त्यातील प्रत्येक ओळीमध्ये तेवढेच रकाने असण्याचे बंधन नसते. शिवाय सर्व ओळींचा एकच टेबल संच न करता त्याचे अनेक संचात विभाजन करून ते छोट्या टॅबलेटस्वरुपात सर्व्हरवर साठविले जातात. यामुळे माहिती कितीही मोठी व विविध प्रकारची असली तरी ती अनेक कॉम्प्युटरवर बिगटेबल टॅबलेटच्या स्वरुपात साठविली जात असल्याने त्याचे विश्लेषण करणे कमी वेळात होऊ शकते.  
     
गुगल गाळणीमध्ये तीन कार्यघटकांचा एकत्रित संच कॉम्प्युटर समूहातील प्रत्येक कॉम्प्युटरमध्ये स्थापित केला जातो. परकोलेटर वर्कर, बिगटेबल टॅबलेट सर्व्हर आणि गुगल फाईल सिस्टीमद्वारे माहिती संच  हाताळणारा चंकसर्व्हर.

परकोलेटर वर्करमार्फत बिगटेबलमधील ज्या ज्या रकान्यातील माहिती बदलली  जात असेल त्याचा शोध घेऊन संबंधित निरीक्षक प्रणालीस कार्यान्वित केली जाते. निरीक्षक प्रणाली बिगटेबल टॅबलेटमधील संबंधित माहितीबरहुकूम चंकसर्व्हरमध्ये माहितीचे संपादन करते.

गुगल गाळणी (परकोलेटर) भाग - १

गुगल शोधप्रणालीमध्ये वेबपेजेसचा संदर्भानुसार क्रम लावण्यासाठी गुगल फाईल सिस्टीम(GFS) व मॅपरिड्यूस वापरून जगातील सर्व वेबसाईटवरील पेजेस वरील माहितीचे परीक्षण केले जाते व क्र्म ठरविला जातो.  नवीन माहितीप्रमाणे क्रमवारीत बदल करण्यासाठी अशी शोध प्रक्रिया सतत पुन: पुन्हा करावी लागते. प्रत्यक्षात वेबपेजेसच्या या मोठ्या  साठ्यातील काही थोड्या भागामध्येच   नवीन माहिती वा नवीन पेजेसची भर पडत असते. मात्र जुनी सर्व माहिती टाकून पुन्हा सर्व माहितीचा शोध घेण्याच्या प्रक्रियेत जुनी माहिती टाळून फक्त नवीन बदल नोंदण्याची सोय नसल्याने शोधप्रक्रियेला जास्त वेळ लागत असे.

गुगलने यावर उपाय म्हणून गुगल परकोलेटर (Google Percolator)नावाची टप्प्याटप्प्याने वृद्धींगत पद्धतीने कार्य करणारी (Incremental Processing)  शोध प्रणाली विकसित केली आहे. या प्रणालीमध्ये बिगटेबल(Big Table) या नावाच्या मोठ्या अनेक ठिकाणी विखुरलेल्या स्वरूपात सर्व माहिती नोंदण्याच्या तक्त्याचा वापर केला जातो. एक्सेलमध्ये जसे रो (आडवी ओळ) व कॉलम ( उभी ओळ)  असतात व प्रत्येक सेल (माहिती कप्पा) कोणता रो व कोणता कॉलम या दोन संख्यांनी दर्शविला जातो तशीच रचना बिग टेबलमध्ये असते. मात्र प्रत्येक कॉम्प्युटरवर बिगटेबलमधील काही ओळींचा समूहच ठेवलेला असल्याने त्याला टॅबलेट असे म्हणतात. शोध प्रक्रियेत वेबपेजेसची माहिती अशा टॅबलेटमध्ये साठविली जाते.

पहिली शोध प्रक्रिया पूर्ण झाल्यावर दुसरी शोधप्रक्रिया या पद्धतीने काम न करता  पहिली प्रक्रिया चालू असतानाच काही काळानंतर दुसरी प्रक्रिया चालू केली जाते. व या पद्धतीने थोड्याथोड्या कालावधीच्या अंतराने अनेक प्रक्रिया चालू केल्या जातात. आता प्रत्येक प्रक्रियेचेवेळी संकलित केलेली माहिती बिगटेबलमध्ये भरताना सेलमध्ये आधीच तशी माहिती भरली गेली अस्रेल तर ती बदलली जात नाही. यामुळे नव्या शोधप्रक्रियेसाठी लागणारा   कालावधी कमी होतो. अर्थात प्रत्येक टॅबलेटमधील माहिती केव्हा भरली आहे याची नोंद (Time Stamp)बिगटेबलमध्येच विशिष्ट ओळीच्या वेगळ्या कप्प्यात ठेवली जाते. हे काम करण्यासाठी निरिक्षक (ऑब्झर्व्हर) प्रणाली वापरली जाते. 

Monday, September 8, 2014

क्लाउड स्टोअरेज - (Cloud Storage )


क्लाउड म्हणजे इंटरनेटच्या माध्यमातून विविध ठिकाणी असलेल्या अनेक कॉम्प्युटर्सच्या समूहांचा वापर करून   माहिती साठविण्याची  तसेच  त्या माहितीच्या आधारे आवश्यक निष्कर्ष अहवाल मिळविण्याची व्यवस्था. याचे अनेक प्रकार आहेत

पब्लिक अथवा सार्वजनिक क्लाउड(Public Cloud)
या क्लाउड स्टोअरेजमध्ये सर्व उद्योगांची माहिती एकत्रितपणे साठविली जाते. अर्थात प्रत्येक उद्योगाच्या माहितीच्या सुरक्षेसाठी व गुप्ततेसाठी विशिष्ट पासवर्ड वापरलेले असल्याने माहिती बाहेर फुटत नाही. या प्रकारचे स्टोअरेज कमी खर्चाचे असते कारण यात क्लाउडच्या साधनसामुग्रीच्या वापरात माहितीच्या समायोजित हाताळणीमुळे बरीच बचत होऊ शकते. 

प्रायव्हेट अथवा खासगी क्लाउड (Private Cloud)
 ज्या उद्योगांना आपल्या माहितीच्या साठ्यासाठी वा विश्लेषणासाठी स्वतंत्र क्लाउड व्यवस्था हवी असेल तर केवल त्या उद्योगापुरती सीमीत अशी प्रायव्हेट क्लाउड व्यवस्था मिळू शकते.

हायब्रीड (Hybreed Cloud )अथवा वरील दोन्ही प्रकारांचा समावेश असणारा क्लाउड
 काही मोठे उद्योग खर्चात बचत करण्यासाठी हायब्रीड क्लाउड पद्धतीचा वापर करतात. अतिशय महत्वाची व संवेदनशील माहिती प्रायव्हेट क्लाउडवर आणि कमी महत्वाची पण जास्त आकारमानाची माहिती पब्लिक क्लाउडवर साठविणे अशा वेळी हायब्रीड क्लाउड सेवा वापरली जाते.

क्लाउड मधील कॉम्प्युटर्स एकमेकाना (Clustor) क्लस्टर म्हणजे समूह स्वरुपात वा नेटवर्क(Network) अथवा इंटरनेटद्वारे जोडलेल्या स्वरुपात असू शकतात.

 कॉम्प्युटर्सवर माहिती जतन करण्यासाठी दोन प्रकारच्या व्यवस्था वापरता येतात.

SAN - सान किंवा स्टोअरेज एरिया नेटवर्क म्हणजे सॉफ्टवेअर व माहितीसाठा करणार्‍या हार्डडिस्क असणार्‍या कॉम्प्युटर्सचे इथरनेट किंवा फायबर केबल्सच्या साहाय्याने तयार केलेले एकत्रित जाळे. या प्रकारच्या माहितीसाठ्यात माहितीची देवाणघेवाण अतिशय वेगाने होऊ शकते. इकॉमर्स वेबसाईटवर हजारो ग्राहक दर सेकंदाला वस्तू खरेदी करीत असतात.  अशा प्रकारच्या किंवा फेसबुक वा ट्विटरसारख्या लोकप्रिय चॅटिंग वेबसाईट वरून येणार्‍या गतिमान माहितीची नोंद डाटाबेसमध्ये त्याच वेगाने होण्याची आवश्यकता असते.  याठिकाणी सान पद्धत अधिक उपयुक्त ठरते.

NAS - नास म्हणजे नेटवर्क अटॅच्ड स्टोअरेज. याबाबतीत कॉम्प्युटर सर्व्हर हा आपल्या माहितीसाठ्याचे आदानप्रदान इतरांशी नेतवर्कद्वारे करतो. यात सर्व्हर व माहिती साठा वा प्रक्रिया करणारे कॉम्प्युटर इथरनेट नेटवर्कच्या माध्यमातून तयार केले एकत्रित जाळे. या पद्धतीत माहितीचे हस्तांतरण फाईल स्वरुपात टीसीपी / आयपी (TCP/IP)  पद्धतीने होत असल्याने वेळ जास्त लागतो. प्रत्येक युजरला होम डिरेक्टरी पुरवायची असेल तर या पद्धतीचा उपयोग होतो. शिवाय या पद्धतीत एकमेकांशी कॉम्प्युटर अगदी सहजपणे विशेष वेगळी प्रणाली न वापरता जोडता येतात.

सान व नास या दोन्ही प्रकारांचा वापर करून हायब्रीड पद्धतीने माहिती साठा करता येतो.

Sunday, September 7, 2014

क्लाऊड वापरातील अडचणी



क्लाउड सेवेचा भाडेतत्वावर वापर करणे कमी खर्चाचे व स्थानिक कॉम्प्युटर व्यवस्थेपेक्षा अधिक विश्वसनीय असले तरी  हे तंत्रज्ञान नवे व अपरिचित असल्याने याचा मोठ्या प्रमाणावर वापर होण्यात बर्‍याच मानसिक व तांत्रिक अडचणी आहेत.

यातली सर्वात महत्वाची अडचण ही कॉम्प्युटर व्यवस्थापनातर्फेच निर्माण केली जाते. तेथील प्रशिक्षित कर्मचारी वर्ग आपले सर्व काम दुसर्‍या बाहेरच्या संस्थेकडे सुपूर्त करायला तयार होत नाही कारण क्लाउड सेवेमुळे त्यांच्यावर बेरोजगारीचे संकट येऊ शकते. त्यामुळे क्लाउडच्या वापरामुळे आपल्या उद्योगाची संवेदनक्षम माहिती स्पर्धक व्यावसायिकांच्या हातात पडण्याचा वा बाहेर फुटण्याचा धोका आहे. आपल्या माहितीवर आपले नियंत्रण राहणार नाही वा आपण परावलंबी होऊ अशी कारणे पुढे करून आहे ती व्यवस्थाच पुढे चालू रहावी याचा ते प्रयत्न करतात. उद्योग व्यवस्थापनाने याबाबतीत स्वतंत्रपणे त्रयस्थ तज्ज्ञ सल्लागारांकडून क्लाउड सेवेच्या फायद्यातोट्यांविषयी माहिती घेऊन  उद्योगाच्या प्रगतीसाठी व आर्थिक बचतीसाठी योग्य तो निर्णय  घेण्याची  आवश्यकता आहे.

पूर्वी कोणत्याही कारखान्यामध्ये यंत्रे चालविण्यासाठी बाष्पशक्तीचा उपयोग केला जाई. त्यावेळी कोळसा वाहक पट्टॆ,  बॉयलर, सॉफनर, चिमणी, प्रदूषण नियंत्रक व्यवस्था यांची उभारणी करावी लागायची. ही यंत्रणा चालविणार्‍या कर्मचार्‍यांचा या व्यवस्थेत बदल करायला विरोध असायचा. पण तरीही विजेवर चालणार्‍या नव्या यंत्रांचा विकास झाल्यावर उद्योगानी आपल्या कार्यपद्धतीत बदल करून विजेचा वापर करण्यास सुरुवात केली. अगदी तसाच बदल कॉम्प्युटरच्या बाबतीत क्लाउड सेवेमुळे होऊ शकेल.

अर्थात यासाठी क्लाउड सेवेविषयी उपस्थित केल्या जाणार्‍या सर्व आक्षेपांना व शंकांना समाधानकारक स्पष्टीकरण मिळून या नव्या व्यवस्थेविषयी ग्राहकांच्या मनात विश्वास निर्माण करण्याची गरज आहे. क्लाउड सेवेचे कार्य कसे चालते. त्यात माहिती सुरक्षा, अचुकता तसेच कार्यक्षमतेतील सातत्य ठेवण्यासाठी कोणकोणत्या स्वयंचलित साधनसुविधांची व सॉफ्टवेअर प्रणालीची सोय केलेली असते याची तपशीलवार माहिती व्यवस्थापकांना सहज समजेल अशा भाषेत प्रसिद्ध करण्याची खबरदारी अशा सेवा पुरविणार्‍या संस्थांनी घेतली पाहिजे. तसेच अशा सेवेसाठी घेतले जाणारे शुल्क उद्योगास कसे किफायतशीर होईल याचीही तुलनात्मक माहिती उपलब्ध करून देणे आवश्यक आहे. 

तसेच याविषयी चर्चासत्रे, परिसंवाद, उद्योजक मेळावे आयोजित करून प्रत्यक्ष अनुभव घेतलेल्या संस्थांच्या मदतीने प्रबोधन करणे उपयुक्त ठरू शकेल. 

सध्या कार्यरत असणार्‍या उद्योग वा संस्था अशा बदलास तयार होणे अवघड असले तरी नव्या उद्योगांना हा पर्याय त्यातील अंगभूत फायद्यांमुळे अधिक आकृष्ट करू शकेल. या नव्या उद्योगांच्या अनुभवांवरून जुन्या व्यवस्थांमधील बदलास सुरुवात होईल.

क्लाउड (Cloud Services) म्हणजे काय ?



 सध्याच्या माहिती तंत्रज्ञानाच्या युगात, कॉम्प्युटरने जीवनाच्या सर्व क्षेत्रात एक मानाचे स्थान मिळविले आहे. माहितीचे संकलन, वर्गीकरण, त्यावर आवश्यक त्या गणिती प्रक्रिया करून उपयुक्त निष्कर्ष अहवाल करण्याचे जटील काम कॉम्प्युटरच्या साहाय्याने अगदी कमी वेळात बिनचूक होत असल्याने शिक्षण, विज्ञान-तंत्रज्ञान, व्यापार, उद्योग, व्यवस्थापन, संशोधन एवढेच नव्हे तर शेती तसेच आर्थिक, सामाजिक क्षेत्रातही  कॉम्प्युटरचा वापर ही एक आवश्यक गोष्ट बनली आहे.

व्यक्तीगत कामासाठी एक कॉम्प्युटर पुरेसा असला तरी इतर मोठ्या शैक्षणिक, औद्योगिक व्यापारी संस्थांमध्ये अनेक कॉम्प्युटर लागतात त्याचे व्यवस्थापन करण्यासाठी वेगळा कुशल कर्मचारी वर्ग यांची योजना करावी लागते. कॉम्प्युटरचे कार्य  व्यवस्थित चालावे यासाठी एअर कंडिशनर, इन्व्हर्टर तसेच मोडेम   इतर नेटवर्कींगची साधने यांची व्यवस्था करावी लागते. कॉम्प्युटर्समध्येही  सर्व्हर थिन क्लायंट किंवा एकत्र जोडलेले स्टँड अलोन  डेस्कटॉप असे विविध प्रकारचे क्षमतेचे कॉम्प्युटर्स वापरले जातात

केवळ कॉम्प्युटर विकत घेतले तरी तेवढ्यावर भागत नाही. ते कार्यान्वित करण्यासाठी ऑपरेटिंग सिस्टीम त्यावर स्थापित करावी लागते. लिनक्स या मुक्त प्रणाली एवजी विंडोज सारखी सिस्टीम वापरावयाची असेल तर तिचे सर्व लायसेन्स कॉम्प्युटर्ससाठी विकत घ्यावे लागते. कॉम्प्युटरचा वापर करण्यासाठी एमएस ऑफिस सारखे सॉफ्टवेअरही विकत घेणे आवश्यक असते. तसेच व्हायरसपासून संरक्षण करण्यासाठी वेगळे सॉफ्टवेअर लागते. कॉम्प्युटर हार्डवेअरचे सॉफ्टवेअरचे ज्ञान असणारा कुशल कर्मचारी वर्ग नेमला तरी तंत्रज्ञानात होणार्‍या बदलांची माहिती होण्यासाठी त्यांच्या  प्रशिक्षणाची व बदलत्या तंत्रज्ञानाप्रमाणे कॉम्प्युटर साधनसामुग्रीत बदल करावे लागतात. शिवाय कॉम्प्युटर कार्यक्षम रहावेत यासाठी त्यांची देखभाल व दुरुस्ती यासाठीही दरवर्षी बराच खर्च करावा लागतो.

एवढे केले तरी माहिती तंत्रज्ञानात होणार्‍या प्रगतीमुळे उद्योग वा संस्थेकडे असणारी कॉम्प्युटर व्यवस्था विकत घेतल्यानंतर थोड्याच दिवसात कालबाह्य ठरते व त्याचे पुन्हा नूतनीकरण करावे लागते. शिवाय ज्या संस्था वा उद्योगाच्या शाखा अनेक ठिकाणी कार्यरत असतात त्यांच्याबाबतीत  प्रत्येक ठिकाणी अशा कॉम्प्युटर विभागाची व्यवस्था करावी लागते. तरीही ऑफिसपासून दूर गेलेल्या व्यावसायिकास वा विक्रेत्यास अशा कॉम्प्युटर व्यवस्थेचा लाभ घेता येत नाही.

 या सर्व समस्यांवर समाधानकारक तोडगा काढण्याच्या प्रयत्नातून क्लाउड संकल्पनेचा उदय झाला.  कॉम्प्युटर यंत्रणा, ऑपरेटिंग सिस्टीम व सॉफ्टवेअर यांची इंटरनेटच्या माध्यमातून सेवा देण्याची योजना म्हणजेच क्लाउड प्रणाली. क्लाउड म्हणजे ढग. मेघदूत या कालिदासाच्या काव्यरचनेत यक्ष आपल्या प्रेयसीला मेघावाटे संदेश पाठवतो. त्यासारखेच पण संदेशाबरोबर माहितीतंत्रज्ञानाच्या सर्व सुविधा पुरविणारी ही विश्वव्यापी व्यवस्था आता प्रचलित कॉम्प्युटरव्यवस्थेस सक्षम पर्याय ठरणार आहे.

माहितीचा साठा व गणिती प्रक्रिया करणारी कॉम्प्युटर मशिन्स व तत्संबंधित हार्डवेअर यांचे व्यवस्थापन, ऑपरेटिंग सिस्टीम व सॉफ्ट्वेअर प्लॅटफॉर्म  यांची सुविधा व प्रत्यक्ष व्यवसायासाठी लागणार्‍या  सॉफ्टवेअरची सेवा या तीनही वेगवेगळ्या कार्यांसाठी अनेक उद्योगसंस्था प्रगत देशात स्थापन झाल्या असून इंटरनेटच्या माध्यमातून भाडेतत्वावर या सेवा कोठेही व कोणासही वापरता येणे आता शक्य झाले आहे.

वरील तीन प्रकारच्या सेवांना IAAS – Infrastructure as a Service, PaaS – Platform as a Service आणि SaaS – Software as a Service असे म्हणतात.माहिती साठविण्यासाठी क्लाउड स्टोअरेज, क्लाउड प्लॅटफॉर्म व माहितीचे विश्लेषण करण्यासाठी क्लाउड कॉम्प्युटिंग या नावानीही या सेवा ओळखल्या जातात.
 

माहितीतंत्रज्ञानाच्या प्रगतीबरोबर आपापल्या कार्यक्षेत्रातील हार्डवेअर, सॉफ्टवेअर व त्याचे नियंत्रण करणारा तज्ज्ञ कर्मचारी यात बदल करणे संस्थांना सहज शक्य होते. माहिती सुरक्षित रहावी यासाठी त्याच्या प्रती विविध कॉम्प्युटर्सच्या हार्डडिस्कवर ठेवणे माहितीच्या आकारमानाप्रमाणे वा संकलनाच्या गतीप्रमाणे अशा कॉम्प्युटर्सच्या संख्येत कमीजास्त बदल करणे व विनाविलंब ग्राहकास आवश्यक निष्कर्ष अहवाल उपलब्ध करून देणे यासाठी हडूप (Hadoop)  वा तत्सम प्रणालीचा वापर केला जात असल्याने ग्राहकाच्या गरजेनुसार व तेवढाच वेळ साधनसामुग्रीचा वापर होत असल्याने ग्राहकास वाजवी खर्चात आपले सर्व काम करता येते. शिवाय स्वतंत्र कॉम्प्युटर यंत्रणा व त्याचे कायमस्वरुपी व्यवस्थापन  करावे लागत नसल्याने खर्चात बचत होते.

Saturday, September 6, 2014

मुंगी उडाली आकाशी


संत मुक्ताबाईंनी ‘मुंगी उडाली आकाशी, तिने गिळिले सूर्याशी’ अशी  अशक्यप्राय असणारी उपमा आपल्या अभंगात दिली होती . मात्र सध्याच्या तंत्रज्ञान युगात ही कल्पना भावार्थाने प्रत्यक्षात आलेली दिसत आहे. अगदी छोट्या मोबाईलच्या साहाय्याने क्लाऊडसारख्या  सर्वदूर माहितीसाठ्याचा उपयोग करून सर्व जगातील ज्ञानभांडाराचा शोध घेण्याची वा त्यात बदल करण्याची क्षमता मानवाने हस्तगत केली आहे.

माहितीतंत्रज्ञान क्षेत्रात एकाचवेळी अतिशय लहान सिलिकॉन पट्टीमध्ये (चिपमध्ये)   महासंगणकीय सामर्थ्य निर्माण करण्याचे व लाखो कॉम्प्युटर्स एकत्रितपणे वापरून क्लाऊडसारख्या अतिविशाल व वेगवान संगणक सर्वांसाठी इंटरनेटच्या माध्यमातून उपलब्ध करून देण्याचे संशोधन चालू आहे. मोबाईलसारख्या वा त्याहूनही लहान साधनाद्वारे अशा विश्वव्यापी संगणकाशी संपर्क साधण्याचे कार्य आता अगदी सुलभ झाले आहे.  तेथे आपला माहिती साठा सुरक्षितपणे जतन करण्याची  वा त्या संगणकक्षमतेचा वापर करून कोणत्याही जटील व गुंतागुंतीच्या समस्येचे उत्तर काढण्याची सुविधा आपल्या हातातील मोबाईलचा उपयोग करून वापरता येणार आहे.

आपंण लहानपणी अल्लाउद्दीन व जादूचा दिवा ही गोष्ट वाचलेली असेल. तो दिवा घासला की कोणतेही काम करण्यास तयार असलेला मायावी राक्षस अल्लाउद्दीनच्या सेवेस हजर होत असे. तशीच काहीशी किमया आता मोबाईल स्वरुपात प्रत्येकाच्या हातात आली आहे. त्याचा योग्य उपयोग केला तर मानवाला भेडसावणार्‍या अनेक समस्यांचे समाधानकारक निराकरण होणे शक्य झाले आहे.

आतापर्यंत सर्व संगणकीय कामासाठी स्वतःकडे कॉम्प्युटर असणे आवश्यक होते. ही गरज आता उरणार नाही. क्लाउडमार्फत मिळणारी सेवा ही भाडेतत्वावर दिली जात असल्याने आपल्याला आवश्यकता असेल तेव्हाच व तेवढ्याच वेळेसाठी ही सेवा आपण वापरू शकता. साहजिकच कॉम्प्युटर्सची व सॉफ्टवेअरची खरेदी, त्यांची देखभाल यांचा खर्च करावा लागणार नाही. शिवाय ही सेवा इंटरनेटद्वारे जगात कोठेही उपलब्ध होत असल्याने स्थानिक मर्यादा त्यास लागू पडत नाहीत.

यामुळेच लहान, मोठे उद्योग आता आपल्या ऑफिसमध्ये कॉम्प्युटर विभाग ठेवण्याऎवजी क्लाउड सेवेचा वापर सुरू करण्याचा गांभिर्याने विचार करू  लागले आहेत. अर्थात अजून बर्‍याच लोकांना क्लाउड सेवेची फारशी माहिती नसल्याने तसेच माहितीच्या सुरक्षेविषयी शंका असल्याने सुरुवातीच्या काळात अशा बदलाचा वेग थोडा कमी राहील. मात्र एकदा का या पर्यायी व्यवस्थेचे फायदे लोकांच्या ध्यानात आले की सध्याच्या कॉम्प्युटर वापराच्या पद्धतीमध्ये आमूलाग्र क्रांती घडेल.

 ज्याप्रमाणे प्रत्येक ऑफिसमधून टाईपरायटरचे उच्चाटन झाले त्याप्रमाणे भविष्यात डेस्कटॉप कॉम्प्युटर्स व तदनुषंगिक साधने बाजारातून अदृश्य होतील व आवश्यक संगणकीय कार्यक्षमता प्रत्येक माणसाच्या मुठीतील मोबाईल वा टॅबमध्ये राहील.


Friday, September 5, 2014

Small domain Big Data scenario for Hadoop



The Hadoop system is developed to compile and analyze large amount of varying data. It may appear that the technique would be useful only in case of web search engines,  countrywide large projects  or big multinational companies. However, it may be pointed out the volume of data depends not on scale or extent of operation but  on the precision  level of data monitoring. For example, space research may deal with Big data composed of information about planets, stars, galaxies in the universe. However, for study of molecular physics or DNA research in bioinformatics, the  information  has the same characteristics of Big Data.

I remember to have read a book  “Nature of physical world” by Eddincton ( if I remember correctly) which starts with an example of the table  that can  give different perception based on viewers tool. To our eyes, it looks  as a piece of furniture with some dimensions, but if we see it through electron  microscope, we find it to be a vast cluster  of millions of atoms and molecules. The information presence depends on our probing tool and could be conceived as a small set of data units or a very large store of data comparable to Big Data. 

Even  for any educational institute, city corporation or business organization, there is a presence of lot of information sources which if monitored minutely will amount to size of Big Data. The only reason we do not deal with such multifarious data is that we do not have that type of large  information processing system. Hence we only consider easily manageable data units and build our decision support system on analysis of such small set of data.

Hadoop programming model has provided us  an effective tool for compiling, storing and  analyzing large data with sufficient redundancy to protect against loss of data, flexibility in handling varying volume and type of data and astonishing speed of data crunching and analysis. This has been made possible through distributed and parallel storage and processing on scalable cluster of computer devices.

If such is the case, then why not employ this effective tool to solve seemingly small domain problems by expanding the data sources to cover all minute features which affect the system behavior.

Let us take an example of a college level educational institute. There are ample data resources as regards, infrastructure, faculty, students , curriculum, courses, amenities, events which are not explored in detail and not considered in planning effective administration. Actually such institute generally has large pool of computers which remain idle except during  practicals. The data generated by students through seminars, research projects is rarely compiled and converted to asset.  Archiving of student records over long time periods, monitoring the alumni whereabouts, communication and collaboration between departments and outside agencies  is  not attended in majority of cases due to administration work overload and limited data collection. 

If  all such data are compiled and processed to give effective administration of education institute by developing   a data centre with Hadoop system utilizing  existing computers in the institute, it  can achieve a significant improvement in existing  work efficiency.  The data backup can be linked with cloud storage to safeguard against loss of data due to the total system failure by any reason.

Thus Hadoop  system may prove to be a Big Next Change for many  small and big organizations if proper deployment and customization is done to suit domain specific requirements.This will increase efficiency, reduce infrastructure cost and provide reliability and flexibility in operation.