அத்தியாயம்- 5


சென்ற வாரம் அனஃபோரா அனாலிசிஸ் மற்றும் நேம்ட் என்டிட்டி ரெகக்னிஷன் (Anaphora Analysis and Named Entity Recognition) பற்றி பார்த்தோம். இந்த வாரம் கூகுள் போன்ற தேடு பொறிகள் எப்படி செயல்படுகின்றன என்பதைப் பற்றி பார்ப்போம்.

ஒரு தேடு பொறியின் செயல்பாட்டினை இருவகையாக பிரிக்கலாம். அவை ஆன்லைன் மற்றும் ஆஃப்லைன் செயல்பாடுகள் ஆகும். முதலில் ஆன்லைன் பற்றி பார்ப்போம். ஏனெனில் பயனருக்கு ஓரளவிற்கு பரிச்சயமானது ஆன்லைன் செயல்பாடுகளே ஆகும். அவை பின்வருமாறு:

    *  பயனர் கொடுக்கும் வினா (query) தேடு பொறியினுள் செலுத்தபடுகிறது.

    * அவ்வினா பல வினாக்களாக விரிவாக்கப்படுகிறது. இதனை க்வெரி எக்ஸ்பான்ஷன் (query expansion) என்பார்கள். ஒரு எடுத்துக்காட்டுடன் இதனை பார்ப்போம். தமிழில் கூகுளை நீங்கள் உபயோகித்திருபீர்கள். "முருகன் கோவில்" என்று நீங்கள் வினா கொடுத்தால், பழனி முருகன் கோவில் பற்றிய ஆவணங்கள் உங்களுக்கு கிடைக்கும். வினாவில் "பழனி" இல்லாத போது பழனி முருகன் கோவில் பற்றிய செய்திகள் நமக்கு கிடைப்பதற்கு ஒரு காரணம், நாம் கொடுக்கும் வினா விரிவாக்கப்பட்டு தேடு பொறிக்கு அளிக்கப்படுவதால் தான். "முருகன் கோவில்" என்கிற வார்த்தை எந்தெந்த வார்த்தைகளுடன் சேர்ந்து பெரும்பாலான ஆவணங்களில் வந்துள்ளதோ அவ்வார்த்தைகள் பயனர் கொடுக்கும் வார்த்தைகளுடன் விரிவாக்கப்படுகிறது. உதாரணத்திற்கு "திருச்செந்தூர்", "திருவண்ணாமலை", "பழனி" போன்ற வார்த்தைகள் "முருகன் கோவில்" என்ற வார்த்தையுடன் சேர்ந்து பல ஆவணங்களில் வந்திருந்தால், அவற்றை முன்னரே தனியாக ஆராய்ந்து பிரித்து எடுத்து வைத்திருபார்கள். அதனை நாம் வினா அளிக்கும் போது நாம் கொடுக்கும் வினாவிற்கேற்ப விரிவாக்குகிறாகள். வினா விரிவாக்கத்திற்கு பல அல்காரிதம் (algorithm), முறைகள் உள்ளன. லேடன்ட் சிமான்டிக் இன்டெக்சிங் (latent semantic indexing)முறை, கூகுள் பயன்படுத்தும் முறைகளுள் ஒன்று. இம்முறையை பற்றி சுருக்கமாக ஒரு எடுத்துக்காட்டுடன் பாப்போம் . "ஆப்பிள்", "மக்கின்டாஷ்", "கம்ப்யூடர்"(apple, machintosh, computer) ஆகிய மூன்று வார்த்தைகளும் பல முறை ஒன்றாக ஆவணங்கள் /வலைத்தளங்களில் வந்திருந்தால், நாம் இம்மூன்று வார்த்தைகளில் எந்த வார்த்தையை வினாவாக கொடுத்தாலும், மற்ற இரண்டு வார்த்தை பற்றிய தகவல்கள் நமக்கு கிடைக்கும்.

    * விரிவாக்கப்பட்ட வினாக்கள் இடம்பெற்றிருக்கும் ஆவணங்களை /வலைத்தளங்களை நமக்கு தேடு பொறி அளிக்கிறது. ஆவணங்கள் வினாக்களுக்கு தகுந்தவாறு வரிசைப்படுத்தப்பட்டு நமக்கு அளிக்கப்படுகின்றன. இதனை சர்ச்சிங் அன்ட் ரான்கிங் (searching and ranking) என்பார்கள். "அண்ணா பல்கலைக்கழகம்" என்று வினா கொடுத்தால், அண்ணா பல்கலைக்கழகத்தின் வலைத்தளம் முதல் இடத்தில் இருப்பதற்கும், அண்ணா பல்கலைக்கழகம் பற்றிய பிற வலைத்தளங்கள் /செய்திகள் வரிசையில் பிந்தி வருவதற்கும் முறையான சர்ச்சிங் அன்ட் ரான்கிங் அல்காரிதம் (searching and ranking algorithms) பயன்படுத்தபடுவதே  காரணமாகும்.


இவ்வாரம் தேடுபொறியின் ஆன்லைன் செயல்பாடுகளைப் பற்றி பார்த்தோம். அடுத்தவாரம் ஆஃப்லைன் செயல்பாடுகளைப் பற்றி பார்ப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

-சுபலலிதா.


(இந்த தொடர் சம்பந்தமான கருத்துக்கள், கேள்விகள் மற்றும் மேலான ஆலோசனைகளை kuzhumam@ithutamil.com என்ற மின்னஞ்சலிற்கு அனுப்பி வைக்கவும்.)

ரேட்டிங்      :
பார்வைகளின் எண்ணிக்கை : 363
உங்கள் கருத்து (விவரங்களை காண்பி......)
பெயர்
உங்கள் கருத்து
கருத்துக்களை பார்க்க (விவரங்களை காண்பி......)
கொல்வின் பதிந்த நேரம் :30-05-2010 10:32:56
புரியாத பல விடயங்களை மிக எளிமையாக விளக்கமாக, சுருககமாக சொல்லியிருக்கிறீர்கள். வாழ்த்துக்கள்.
நல்லவன் பதிந்த நேரம் :29-04-2010 09:55:10
அருமையான பதிவு ..... படத்துக்கே 1000 ஒட்டு போடலாம்
அமிர்தநாராயணன் பதிந்த நேரம் :29-04-2010 08:04:27
உங்கள் பதிவு மிகவும் நன்றாகவும், இரத்தின சுருக்கமாகவும் இருக்கிறது.
சே.ராஜப்ரியன் பதிந்த நேரம் :28-04-2010 12:44:29
தொடருங்கள்