Saturday, August 23, 2014

Hadoop – Significance for India



Concept – Hadoop concept is simple. In order to provide scalable, reliable and flexible large capacity for storing and analyzing Big Data, The job is split into number of small tasks and allotted to number of hardware devices which run in parallel. 

HDFS system does the  splitting and distribution of small information packets on hard disk storages on  different machines ensuring sufficient redundancy. Map-Reduce system works in two steps. Mapping of the information  packets  with job tracker is done in key-value format  where the key indicates the locationand type of information whereas value represents actual information. Mapping also converts the key-value  input list to output list with some predefined criteria. Reduce part does the aggregation of the results from output list to provide desired  summary information as the final output. 

 As the information from Big Data sources is collected continuously the information flow can be properly termed in terms of volume of data (bandwidth)  varying with time. In that sense, Hadoop manages streaming data and the terms input list and output list could be interpreted as input and output data streams. 

Significance for India – Thus the Hadoop system is based on parallel processing concept. Though it is employed for collection and processing of Big Data by using large clusters of computers, we can use this concept for handling large scale computational requirements for monitoring  countrywide development projects and variety of large scale complex environmental and social challenges.

India is planning for development of 100 smart cities. The administration of such cities needs webbased central control  software to cater for infrastructural services, energy and ecosystem monitoring, health, education and business requirements. Cloud computing with Hadoop system would be essential for such projects. 

As regards, Digital India objective, Hadoop provides many avenues for progress in this direction.   Major software companies in India like Infosys, Wipro and TCS and call centers are using human resource in similar fashion. These companies can improve their functioning  to achieve scalability, redundancy and cost optimization by using Hadoop methodology.

 The workload of projects can be split in tiny tasks and distributed to large number of small software companies located in villages and small towns with sufficient replication to safeguard the project execution  timeline even if some providers fail to deliver the desired quality output. As the workforce would be scattered and not located in costly urban centres, the salary burden can be greatly reduced. 

Moreover, this will give a big boost to small software companies in semi urban or rural area, which are struggling for their survival through transient staff and paucity of good projects. Strengthening of distributed small software companies will help in achieving the goal of digital India by providing live project training facilities to educated but unemployed youth who can’t leave their home due to agriculture or family requirements. 

Hadoop relies on distributed parallel processing of Big Data by using computers. We can use the same concept for handling large scale projects of any type by splitting the work in large number of small work packets and  replacing computers with skilled but scattered human workforce. Fortunately, the internet connectivity and popularity of mobile and tab devices has provided necessary hardware support for integrating such tasks.

Thus Hadoop system is not only for Big Data computing system for large projects  but can provide a new way of distributed sustainable development in India.

Thursday, August 21, 2014

Big Data or Relevant Data


 The software companies in the world are after developing new tools and methods to grasp all data coming on the internet and analyzing it to find the trends and likings of people to give clues for companies regarding planning of their future expansion projects. Considering the vast scope of Big Data as regards  sources, volume, type of data, speed of data generation and unpredictable fluctuations with time, the task of data compilation and analysis is becoming more difficult day by day. Distributed  storage and parallel processing of data  through Hadoop programming  system has achieved major success in handling such enormous data.

The so called Big Data, accessible on the internet is a very small part of the actual data generated. Majority of relevant data remains locked up in personal and organizational  secure storages and is never disclosed to public. The free data we see on the internet is just a tip of iceberg, major portion remaining hidden in private domain .

Most of the data originated through facebook, twitter and other social sites and email communications is full of local issues and  entertainment, repetitive  material  with very little worthwhile information. Searching such voluminous data for few hints and clues is like searching needle in haystack. Hence the question naturally arises that whether such effort is worthwhile?  The investments needed for necessary infrastructure and development of sustainable computer systems require huge financial resources. Still, the software companies are after it. Why?

This is because of the Big Money that they can get through search of such Big Data. Big international corporations have a large client base distributed widely on geographical scale. Their investments are big and afford to pay big money for market research. This has given boost for expanding software capabilities for large scale multifarious information collection, storage and analysis.  This gave rise to new concept of providing  Cloud storage and cloud computing services which are reliable, scalable and economical  for big and small businesses alike.

A new era of wearable small devices with capability of huge memory storage and computing power  through hired cloud  services will drastically change the whole scenario of local computer requirements of organizations.  Many fields like education, environment, health and administration will greatly benefit by adopting Big Data management systems.

 Still, we have to admit that the Big Data and Cloud computing concepts are not required  for majority of business activities and people would continue to use their desktops for normal work.  Traditional  relevant data  with rich value will keep their work simple and within their total control.




Saturday, August 16, 2014

स्वप्न हरित नगरीचे (ध्वनीफीत)

ज्ञानदीप एज्युकेशन अँड रिसर्च फौंडेशनने २००९ मध्ये पुण्यात Dream of Green City यानावाचे सेमिनार आयोजित केले होते. त्याची पार्श्वभूमी विषद करण्यासाठी मी २६ जून २००९ रोजी स्वप्न हरित नगरीचे या नावाचा ब्लॉग लिहिला होता. त्याची लिंक खालीलप्रमाणे आहे.

http://dnyandeep.blogspot.in/2009/06/blog-post_9069.html

या ब्लॉगची ध्वनीफीत खाली देत आहे.


Friday, August 15, 2014

हडूप (HADOOP) भाग - ६

 हडूप कार्यपद्धतीची ओळख होण्यासाठी एक छोटे उदाहरण घेऊ या.

 समजा तीन कॉम्प्युटर्सचा एक समूह माहिती साठविण्यासाठी वापरला आहे व त्यावरील हार्डडिस्क्मध्ये माहिती साठविण्यासाठी २०० ते ३००, ५०० ते ६०० आणि ८०० ते ९०० असे स्मृतीकोष आहेत.

आता Dnyandeep Education & Research Foundation या माहिती संचातील अक्षरांची संख्या आपल्याला काढायची आहे. सर्वप्रथम HDFS तर्फे या माहिती संचाचे तुकडे करून त्याच्या तीन प्रती विविध ठिकाणी तीनही  कॉम्प्युटर्सच्या हार्डडिस्कमध्ये साठविल्या जातील. समजा त्यांची स्थाने खालीलप्रमाणे आहेत.

१. Dnyandeep -२३५,५७६,८१३
२. Education  - २५४,५४१,८३७
३. & - २७९, ५१०,८७५
४. Research - २४९,५९१,८९४
५. Foundation - २६८, ५२९, ८५३
 आता इनपुट यादीतील की व डाटा व्हॅल्यु खालीलप्रमाणे असतील
  
Key - Data value Key - Data value Key - Data value
२३५ ->Dnyandeep

२५४->Education

२७९->&

२४९->Research

२६८->Foundation
 ५७६ ->Dnyandeep

५४१->Education

५१०->&

५९१->Research

५२९->Foundation
८१३ ->Dnyandeep

८३७->Education

८७५->&

८९४->Research

८५३->Foundation


मॅपिंग प्रणालीतर्फे या कॉम्प्युटर्स वरील माहिती संचातील अक्षरांची संख्या प्रत्येक बाबतीत वेगवेगळी काढली जाईल (प्रत्येक शब्दातील अक्षरांची संख्या काढणे हे एक टास्क असेल.)
१) २३५-९, २५४-१०,२७९-१,२४९-८,२६८-१०
२) ५७६-९,५४१-१०,५१०-१,५९१-८,५२९-१०
३) ८१३-९,८३७-१०,८७५-१,८९४-८,८५३-१०
या झाल्या आऊटपुट याद्या

आता रिड्यूस प्रणालीतर्फे  कॉम्प्युटरवरील माहिती संचांतील अक्षरांच्या संख्यांची बेरीज करून नवी निष्कर्ष यादी तयार करेल.

पहिल्या कॉम्प्युटरचे संख्यांची बेरीज करण्याचे कार्य चालू असताना २५४ या स्थानावर असलेली आउतपुट यादीतील माहिती वाचण्यात अडथळा आला तर ५४१ या स्थानावरील दुसर्‍या प्रतीचा वा ८३७ वरील तिसर्‍या प्रतीचा उपयोग केला जाईल. हीच क्रिया सर्व शब्द वाचून पूर्ण होईपर्यंत केली जाईल व शेवटी उत्तर ३८ हे वेगळ्या स्थानावर साठविले जाईल.

सूचना - वरील उदाहरणात मी मला समजलेल्या हडूपच्या कार्यपद्धतीचे वर्णन केले आहे यात चूक असण्याची शक्यता आहे. तज्ज्ञांनी याबाबतीत काही बदल हवा असल्यास अवश्य कळवावे. म्हणजे वरील उदाहरणात योग्य तो बदल करता येईल.


हडूप (HADOOP) भाग - ५



मॅप रिड्यूस

मॅप आणि रिड्यूस अशा दोन प्रणालींचा वापर करून येणार्‍या माहितीतून आवश्यक ते निष्कर्ष काढले जातात.

मॅपिंग  प्रणाली
माहितीचा साठा वा विष्लेषण करताना प्रत्येक माहिती घटकास एक विशिष्ट संदर्भ क्रमांक ( पासवर्डसारखा अक्षरे व अंक यांचा समावेश असणारा व माहितीचे स्थान दर्शविणारा)  दिला जातो. याला की असे म्हणतात तर प्रत्यक्ष माहितीघटकाला व्हॅल्यु असे म्हणतात. म्हणजे प्रत्येक माहिती घटकाचे वर्णन की आणि व्हॅल्यु अशा जोडीने केले जाते. संकलित केल्या जाणार्‍या माहितीच्या घटकांनुसार की-व्हॅल्यु च्या जोड्यांची यादी इनपुट म्हणून नोंदली जाते व त्यावर आवश्यकतेनुसार संस्कार करून आऊटपुट यादीमध्ये रुपांतर करण्याचे कार्य मॅपिंग या प्रणालीद्वारे केले जाते.

 
उदाहरणार्थ इनपुट माहितीतील विशिष्ट शब्द वा संज्ञा यांची संख्या यांची मोजदाद करायची असेल तर  प्रत्येक इनपुट माहिती घटकातील संख्या,  की आणि व्हॅल्यु या स्वरुपात आऊटपुट यादीत मांडली जाते.  इनपुट माहितीघटकांचे आवश्यकतेनुसार विश्लेषण करून येणार्‍या निष्कर्षांची आऊटपुट यादी बनविणे हे मॅपिंग प्रणालीचे काम असते.
रिड्यूस प्रणाली
रिड्यूस प्रणालीमध्ये अशा आउटपुट यादीतील निष्कर्षांचे एकत्रीकरण  ( Aggregation)  केले जाते.

 

शफलिंग ( अदलाबदल)
अनेक कॉम्प्युटर्सवरून तयार झालेले निष्कर्ष जसेच्या तसे न वापरता त्यांची अदलाबदल ( शफलिंग ) करून निष्कर्षांचे  नवे गट केले जातात. यामुळे एखाद्या कॉम्प्युटरवरील माहितीत दोष निर्माण झाला असेल तरीही त्याचा  परिणाम एका पूर्ण गटावर होत नाही व  प्रत्येक गटातून योग्य निष्कर्ष निवडण्याची प्रक्रिया करणे शक्य होते.

संकलित होणार्‍या माहितीचे अनेक भाग वेगवेगळ्या कॉम्प्युटर्स वर वितरित होऊन तेथे स्थानिक पातळीवर मॅप रिड्यूस द्वारे निष्कर्ष जमा केले जात असल्याने कामाची गती कितीही वाढविता येते.
 

Thursday, August 14, 2014

हडूप (HADOOP) भाग - ४


एचडीएफएस - हडूप डिस्ट्रिब्युटेड फाईल सिस्टीम - म्हणजे  माहितीची साठवण करण्यासाठी एकूण माहितीचे  अनेक छोट्या माहितीसंचांच्या स्वरुपात भाग करून सुरक्षेसाठी त्यांच्या अनेक प्रती विविध ठिकाणी ठेवण्याची व त्यावर आवश्यक ती प्रक्रिया करण्याची सुविधा. एचडीएफएस प्रणालीचे डिझाईन जावा प्रोग्रॅममध्ये केलेले असते.

 या योजनेत माहितीचे परिशीलन, विश्लेषण वा गणिती प्रक्रिया करण्याची कामे ( जॉब ) नियंत्रित करण्यासाठी कार्यनियंत्रकाची ( जॉब ट्रॅकर) व्यवस्था असते. माहिती साठ्यासाठी वा विश्लेषणासाठी जे कॉम्पुटर्स वापरले असतील त्यांचा एक समूह ( क्लस्टर) करून त्यावरील माहिती व प्रक्रिया नियंत्रणाचे कार्य एका जॉब ट्रॅकरद्वारे केले जाते. यामध्ये प्रत्येक माहितीसंच वा कार्य निश्चित कोणत्या हार्ड्डिस्कवर कोठे  आहे (नेटवर्क स्विच)  त्याची नोंद जॉब ट्रॅकर ठेवतो व अशा कोणत्याही ठिकाणी हार्डवेअरमधील बिघाडामुळे व्यत्यय आला तर त्याजागी दुसरीकडील त्याची प्रत कार्यान्वित करण्याचे व त्यात समन्वय राखण्याचे कार्य जॉब ट्रॅकरद्वारे केले जाते. तसेच माहितीच्या आकारमानाप्रमाणे समूहात असणार्‍या कॉम्प्युटर्सची संख्या बदलण्याची क्षमता या जॉब ट्रॅकर प्रणालीत असते.

 छोट्या हडूप क्लस्टरमध्ये (कॉम्पुटर्सचा समूह) एक मुख्य नियंत्रक म्हणून तर इतर माहिती साठाविणारे व विश्लेषक म्हणून कार्य करतात. नियंत्रकामध्ये जॉब ट्रॅकर( संपूर्ण कामाचे नियोजन), टास्क ट्रॅकर(छोट्या कार्य घटकाचे नियोजन), नेमनोड आणि डाटा नोड ( नेम नोड म्हणजे माहितीसंचाच्या  संदर्भ क्रमांकांची नोंद   नाव तर  डाटा नोड म्हणजे प्रत्यक्ष माहितीसंच)   असे चार भाग असतात.

जॉब ट्रॅकर एका संपूर्ण कामाचे अनेक छोट्या स्वतंत्र टास्कमध्ये मॅपिंग करतो व माहिती स्थानाच्या संदर्भासहीत ते कार्य  टास्क ट्रॅकरकडे सुपूर्त करतो. टास्क ट्रॅकर माहितीस्थानाचा शोध घेऊन इप्सित कार्य (टास्क)  पूर्ण करतो व नियंत्रण पुन: जॉब ट्रॅकरकडे देतो.

 मोठ्या हडूप क्लस्टरमध्ये एक मुख्य नेमनोडमध्ये सर्व कामांची यादी असते तर दुय्यम नेमनोडमध्ये  प्रत्येक कामाचा आढावा (स्नॅपशॉट) असणारी यादी असते. याशिवाय जॉब ट्रॅकरचे काम करण्यासाठी स्वतंत्र कॉम्प्युटरची योजना केलेली असते. अशा हडूप प्रणालीमध्ये गीगाबाईट ते टेराबाईट इतक्या आकारमानाच्या मोठ्या  माहिती संचांचे काम होऊ शकते.

 हडुप प्रणालीमध्ये प्रत्येक काम अनेक कॉम्प्युटर्समध्ये विभागून समांतर पद्धतीने केले जात असल्याने माहिती संकलन वा विश्लेषण यांच्या कार्यक्षमतेवर माहितीचे आकारमान, गती वा त्यातील फेरबदल यांचा परिणाम होत नाही. शिवाय सर्व साधन सुविधांचा वापर आवश्यकतेप्रमाणे होत असल्याने खर्चात बचत होते.

हडूप (HADOOP) भाग - ३

बिग डाटा ( Big Data)
 सध्या सर्व उद्योग व्यवसाय आपल्या उत्पादित वस्तू वा सेवा यांच्या वाढीसाठी जनतेतील मतप्रवाह, आवडीनिवडी यांचा अभ्यास करण्यासाठी प्रयत्न करीत असतात. जगात विविध साधनांद्वारे निर्माण होणार्‍या माहितीचा आवाका किती मोठा आहे याचा अंदाज आला तर त्याचे विश्लेषण करण्यासाठी वापल्या जाणार्‍या  हडूपच्या कार्यप्रणालीचे महत्व लक्षात येईल.  

माहिती निर्मितीची साधने
१. वेबसाईटवरील माहिती-
इंटरनेटवरील माहितीसाठा प्रचंड वेगाने वाढत आहे. माहितीचे स्वरूपही टेक्स्ट, चित्रे, फोटो, ध्वनीफीत, व्हिडीओ अशा विविध प्रकारचे आहे. आताच्या घडीला एकूण किती वेबसाईट आहेत हे पहायचे असेल तर खालील लिंक उघडा.
http://www.internetlivestats.com/watch/websites/
 हा लेख लिहिताना मला मिळालेला आकडा 1,030,309,613 हा होता. त्यात दर सेकंदाला वाढ होत आहे. या  वेबसाईटवर एकूण पाने व मजकूर किती आहे याची मोजदाद याच्या कितीतरीपट अधिक असेल. शिवाय वेबसाईट पाहणार्‍यांचे अभिप्राय व ते घालत असलेली इतर विविध प्रकारची माहिती क्षणोक्षणी वाढत आहे.
२. सर्व मालाची विक्री होत असताना होणारा चलन विनियम ( रोख पैसे, चेक, क्रेडिट व डेबिट कार्ड) तसेच ग्राहकाचे फेसबुक, ट्विटर वा अन्य सोशल मिडीयावर येणारे अभिप्राय.
३. विविध प्रकारच्या इलेक्ट्रॉनिक सेन्सॉरद्वारे प्रसारित केलेले संदेश
४. टेलिफोन, स्मार्टफोन इत्यादी साधनांद्वारे होणारे संभाषण

 साहजिकच शोधप्रणालीच्या कार्यपद्धतीत हा साठा कॉम्प्युटरवर साठवून ठेवण्यासाठी लागणारी मेमरीची गरजही कल्पनातीत वाढली आहे. अशा मोठ्या माहिती साठ्याला बिग डाटा असे म्हटले जाते.

एका A4 आकाराच्या कागदावर लिहिला मजकूर साठवून ठेवण्यासाठी २ केबी मेमरी पुरेशी होते. मात्र चित्र फोटोसाठी २० पासून २००० केबी एवढी मेमरी लागू शकते. आवाज साठविण्यासाठी दर मिनिटाला १००० केबी ( १ एम्.बी) मेमरी लागते तर व्हिडीओसाठी याच्या दहापट मेमरीची आवश्यकता असते. वर नमूद केल्याप्रमाणे जगातील सार्‍या वेबसाईटवरील एकूण माहितीची मोजदाद करण्यासाठी मेमरी मोजण्याचे परिमाणही बदलावे लागते.

एक अक्षर म्हणजे एक बाईट, १००० अक्षरे म्हणजे १केबी ( द्विमान पद्धतीप्रंमाणे अचूक म्हणजे १०२४ बाईट) , १००० केबी म्हणजे १ एमबी, १००० एमबी म्हणजे १ जीबी ( गीगाबाईट), १००० जीबी म्हणजे १ टीबी ( टेराबाईट) येथपर्यंत मेमरीची परिमाणॆ आपल्या परिचयाची असतील. याच प्रकारे अधिक मोठी परिमाणे पेटाबाईट ( १००० टीबी), एक्झाबाईट (१००० पेटाबाईट), झेटाबाईट(१००० एक्झाबाईट) व योटाबाईट (१००० झेटाबाईट) अशी परिमाणे वापरण्याची वेळ आता आली आहे.

 सुदैवाने मेमरी साठविण्याच्या साधनांमध्येही सुधारणा होऊन प्रचंड मेमरी साठा करू शकणार्‍या हार्ड डीस्क व माहिती विश्लेषण करणार्‍या  फ्लॅश  मेमरी चिप विकसित झाल्या असून त्यांच्या किंमतीही कमी होत आहेत.
बिग डाटा हा शब्दप्रयोग केवळ माहितीच्या स्थाय़ी साठ्यासंबंधी वापरला जात नसून माहितीवहनाचे आकारमान व वेग तसेच त्यात होणारे फेरबदल यांचाही बिग डाटामध्ये समावेश केला जातो. कारण माहितीचे विश्लेषण करताना या गोष्टीही अत्यंत महवाच्या असतात.

हडूप कार्यप्रणाली अशा महाकाय व सतत बदलत असणार्‍या माहितीप्रवाहावर कार्य करून आवश्यक ते निष्कर्ष अहवाल  तयार करू शकते.
 

Sunday, August 10, 2014

हडूप (HADOOP) भाग - २

हडूपची रचना - अपाचे हडूप हे एक फ्रेमवर्क आहे. म्हणजे यातील सर्व प्रोग्रॅम एका विशिष्ट सर्वसमावेशक कार्यपद्धतीने  वापरता यावेत अशा रीतीने वेगवेगळ्या समूहात विभागलेले असतात.
हडूपमध्ये  चार विभाग असतात.

१. हडूप कॉमन (Common) - सर्व विभागातील कार्यासाठी लागणार्‍या प्रोग्रॅम व सुविधा यात समाविष्ट केलेल्या असतात.

२. हडूप डिस्ट्रीब्यूटेड फाईल सिस्टीम (HDFS) - सुरक्षा व समांतर कार्यासाठी अनेक कॉम्प्युटर्सवर माहिती  वितरित करण्याची व्यवस्था या प्रणालीत असते.

३. हडूप यार्न (YARN)- सर्व साधन सुविधांचा कार्यक्षमतेने वापर व्हावा यासाठी ग्राहकांच्या माहिती विश्लेषण कार्यातील आवश्यकतेनुसार त्यांचे गट करून  क्रम निश्चित करण्याची कार्यप्रणाली

४. हडूप मॅपरिड्यूस (Hadoop MapReduce)  -  फार मोठ्या माहितीसमूहाचे विश्लेषण करण्यासाठी विकसित केलेली वैशिष्ठ्यपूर्ण कार्यप्रणाली.

कॉम्प्युटरच्या हार्डडिस्कवर माहिती जतन केली असेल तरी हार्डडिस्कमध्ये बिघाड झाल्यास माहिती नष्ट होण्याचा वा त्यात दोष शिरण्याचा धोका असतो. सध्याच्या पद्धतीत एका सर्व्हरवर एकाच ठिकाणी अशी माहिती असल्याने असा धोका संभवतो.

हडूप प्रणालीमध्ये  माहिती सुरक्षित व दोषरहीत रहावी यासाठी प्रत्येक माहितीसंचाची प्रत   दोन किंवा अधिक  वेगवेगळ्या कॉम्प्युटर वा हार्डडिस्कवर जतन केली जाते. प्रत्येक माहितीघटक  अनेक छोट्या तुकड्यांच्या स्वरूपात  अनेक ठिकाणी ठेवणे व एकाच वेळी समांतर पद्धतीने सर्व कॉम्प्युटर्सवर  त्याचे विश्लेषण करण्याची पद्धत (parallel processing ) हडूपमध्ये वापरली जात असल्याने माहिती विश्लेषणाचे कार्य अतिशय वेगाने होते तसेच येणार्‍या माहितीचा ओघ कितीही बदलता असला तरी गरजेनुसार साधन सुविधांची ( हार्डवेअर व सॉफ्टवेअर) योजना करणे  हडूप प्रणालीत शक्य असल्याने ग्राहकास भाडे तत्वार अशी सेवा घेणे किफायतशीर ठरते.

Saturday, August 9, 2014

हडूप (HADOOP) भाग - १

हडूप (HADOOP)- माहिती विश्लेषणाचे आधुनिक साधन



गुगल वेबसाईटवरील सर्च बॉक्समध्ये  आपण कोणताही शब्दसंच टाकला की क्षणार्धात त्याविषय़ी माहिती असणार्‍या हजारो वेबपेजेसची यादी आपल्याला दिसते. गुगल हे कसे काय करू शकते असा प्रश्न आपल्याला पडतो.

गुगलने यासाठी इंटरनेटवरील सर्व अद्ययावत माहितीचे संकलन व विश्लेषण करण्यासाठी एक व्यापक शोधप्रणाली  ( सर्च इंजिन ) इ. स. २००० मध्ये विकसित केली. जगातील सर्व वेबसाईट्सला भेट देऊन त्यातील प्रत्येक पानावरील माहिती एकत्र करून अनेक कॉम्प्युटरवर त्याचा साठा करणे,  त्याचे संदर्भानुसार वर्गीकरण करून क्रम लावण्याचे कार्य या गुगलची शोधप्रणालीद्वारे सतत केले जाते. त्यामुळे त्याच्या या वर्गीकरण केलेल्या तयार माहितीकोषातून शब्दसंचाशी सुसंगत माहिती असणार्‍या वेबपेजेसची यादी त्वरित तयार करणे गुगल शोधप्रणालीस शक्य होते.

 अर्थात इंटरनेटच्या विस्ताराबरोबर वेबसाईटची संख्याही प्रचंड वेगाने वाढू लागली व  माहिती साठविणे व वर्गीकरण करण्याच्य़ा रूढ पद्धतींचा वापर करणे दिवसेंदिवस अवघड होऊ लागले. यावर उपाय म्हणून गुगलने आपल्या शोधप्रणालीत आमूलाग्र बदल केले. गोळा केलेल्या माहितीचे अनेक भाग करून ते एकाचवेळी अनेक कॉम्प्युटर ( सर्व्हर) वर साठविण्यासाठी गुगल फाईल सिस्टीम (GFS) आणि या सर्व माहितीची संदर्भ क्रमांक यादी करणारा मॅप रिड्यूस (Map Reduce)  नावाचा प्रोग्रॅम या दोन सुविधा वापरून गुगल शोधप्रणाली अद्ययावत व सक्षम बनविण्यात आली. इ. स. २००४ मध्ये गुगलने आपले हे शोधकार्य प्रसिद्ध केले. मात्र ही शोधप्रणाली गुगलच्या मालकीची असल्याने इतरांना याचा वापर करणे शक्य नव्हते.

याचसुमारास डॉन कटींग हा संशोधक  त्यावेळी नच (Nutch)  या मुक्त शोधप्रणालीवर काम करीत होता त्याने वेबसाईटला भेट देणार्‍या क्रॉलर या प्रोग्रॅममध्ये माहिती संकलन व विश्लेषण याचे कार्य समाविष्ट करून मॅप रिड्यूसचा नवा अवतार प्रसिद्ध केला त्याला त्याने आपल्या मुलाच्या खेळण्यातील हत्तीचे नाव ’हडूप’(HADOOP)  असे दिले. गुगलपेक्षा ज्येष्ठ असणार्‍या याहू या कंपनीला गुगलशी स्पर्धा करण्यासाठी अशा शोधप्रणालीची गरज होती. त्यामुळे याहूने कटींगच्या या मुक्त प्रणालीचा पुरस्कार करून इ. स. २००६ मध्ये हडूपचे सर्व प्रोग्रॅम संशोधकांसाठी खुले करून त्यांचा  व्यावसायिक वेबसाईट कंपन्यांना वापर करण्यास संधी दिली.

 सध्या हडूप ही मुक्त शोधप्रणाली अपाचे सॉफ्टवेअर फौंडेशनतर्फे सर्वांसाठी खुली करण्यात आली आहे. इ. स. २००८ मध्ये अपाचे हडूपचा व्यावसायिक दृष्टीने विकास करण्यासाठी क्लौडेरा (Cloudera)  या कंपनीची स्थापना करण्यात आली. माहितीचे संकलन, जतन व विश्लेषण करण्याच्या नव्या पद्धतींचा व्यावसायिक क्षेत्रास परिचय करून देणे हा या कंपनीचा उद्देश आहे. कारण भविष्यात उद्योग, व्यापार, संरक्षण व इतर सर्व क्षेत्रात या माहिती तंत्रज्ञानातील नव्या पद्धतींमुळे फार मोठे फेरबदल होणार आहेत. आर्थिक लाभाबरोबर कार्यक्षमतेतही भरपूर वाढीस वाव असल्याने थोड्याच काळात हडूप प्रणालीचा वापर सर्व ठिकाणी होणे हितावह आहे.

Thursday, August 7, 2014

गीता अध्याय १२ व १५ चे पाठांतर

लहानपणी आमच्या शाळेत गीतेचे १२ व १५ व्या अध्यायाच्या पाठांतराच्या स्पर्धा होत्या. त्यावेळी स्पर्धेच्या निमित्ताने आमच्या वर्गातील सर्व विद्यार्थ्यांनी हे अध्याय पाठ केले होते. त्यानंतर मी कधी हे अध्याय म्हटले नव्हते.

श्रृंगेरी येथील शंकराचारयांच्या मठातर्फे गीता पाठांतरास प्रोत्साहन म्हणून स्पर्धा घेतल्या जातात व तेथे आमचे व्याही श्री. काशीनाथ खरे यांनी  सर्व १८ अध्याय पाठांतर करून पारितोषिक मिळविले. हे समजल्यानंतर मला त्या पूर्वीच्या मी केलेल्या पाठांतराची आठवण झाली आणि आश्चर्य म्हणजे आज जवळजवळ ६० वर्षांनंतरही यातील सर्व श्लोक मला आठवता आले. म्हणजे लहानपणी जर असे पाठांतर केले तर त्याची स्मृती आयुष्यभर आपल्याला साथ देते हे मला जाणवले.

हा ब्लॉग वाचणार्‍या विद्यार्थ्यांनी असे पाठांतर करावे असे मला वाटते. त्यांच्या सोयीसाठी मी हे अध्याय ध्वनीफितींसह देत आहे.

गीता अध्याय १२ -
गीता अध्याय  १५ -

लहानपणी  पाठांतर लवकर करता येते. यामुळे संस्कृत श्लोक, पाढे, सुविचार एवढेच नव्हे तर पाठ्यक्रमातील कविता मुलांनी पाठ करून ठेवणे त्यांना पुढील आयुष्यात फार उपयोगी पडेल असे मला वाटते.