Saturday, September 27, 2014

गुगल गाळणी (परकोलेटर) भाग - १

गुगल शोधप्रणालीमध्ये वेबपेजेसचा संदर्भानुसार क्रम लावण्यासाठी गुगल फाईल सिस्टीम(GFS) व मॅपरिड्यूस वापरून जगातील सर्व वेबसाईटवरील पेजेस वरील माहितीचे परीक्षण केले जाते व क्र्म ठरविला जातो.  नवीन माहितीप्रमाणे क्रमवारीत बदल करण्यासाठी अशी शोध प्रक्रिया सतत पुन: पुन्हा करावी लागते. प्रत्यक्षात वेबपेजेसच्या या मोठ्या  साठ्यातील काही थोड्या भागामध्येच   नवीन माहिती वा नवीन पेजेसची भर पडत असते. मात्र जुनी सर्व माहिती टाकून पुन्हा सर्व माहितीचा शोध घेण्याच्या प्रक्रियेत जुनी माहिती टाळून फक्त नवीन बदल नोंदण्याची सोय नसल्याने शोधप्रक्रियेला जास्त वेळ लागत असे.

गुगलने यावर उपाय म्हणून गुगल परकोलेटर (Google Percolator)नावाची टप्प्याटप्प्याने वृद्धींगत पद्धतीने कार्य करणारी (Incremental Processing)  शोध प्रणाली विकसित केली आहे. या प्रणालीमध्ये बिगटेबल(Big Table) या नावाच्या मोठ्या अनेक ठिकाणी विखुरलेल्या स्वरूपात सर्व माहिती नोंदण्याच्या तक्त्याचा वापर केला जातो. एक्सेलमध्ये जसे रो (आडवी ओळ) व कॉलम ( उभी ओळ)  असतात व प्रत्येक सेल (माहिती कप्पा) कोणता रो व कोणता कॉलम या दोन संख्यांनी दर्शविला जातो तशीच रचना बिग टेबलमध्ये असते. मात्र प्रत्येक कॉम्प्युटरवर बिगटेबलमधील काही ओळींचा समूहच ठेवलेला असल्याने त्याला टॅबलेट असे म्हणतात. शोध प्रक्रियेत वेबपेजेसची माहिती अशा टॅबलेटमध्ये साठविली जाते.

पहिली शोध प्रक्रिया पूर्ण झाल्यावर दुसरी शोधप्रक्रिया या पद्धतीने काम न करता  पहिली प्रक्रिया चालू असतानाच काही काळानंतर दुसरी प्रक्रिया चालू केली जाते. व या पद्धतीने थोड्याथोड्या कालावधीच्या अंतराने अनेक प्रक्रिया चालू केल्या जातात. आता प्रत्येक प्रक्रियेचेवेळी संकलित केलेली माहिती बिगटेबलमध्ये भरताना सेलमध्ये आधीच तशी माहिती भरली गेली अस्रेल तर ती बदलली जात नाही. यामुळे नव्या शोधप्रक्रियेसाठी लागणारा   कालावधी कमी होतो. अर्थात प्रत्येक टॅबलेटमधील माहिती केव्हा भरली आहे याची नोंद (Time Stamp)बिगटेबलमध्येच विशिष्ट ओळीच्या वेगळ्या कप्प्यात ठेवली जाते. हे काम करण्यासाठी निरिक्षक (ऑब्झर्व्हर) प्रणाली वापरली जाते. 

No comments:

Post a Comment