Skip to content


By paddloPayday loans

മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍

zwj,zwnj പ്രശ്നങ്ങള്‍ കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്‍ന്നപ്പോള്‍ Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ വികസനപ്രവര്‍ത്തങ്ങള്‍ വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില്‍ നിന്നും wikipedia യില്‍ നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്‍. ഇതുവരെ 15000 വാക്കുകള്‍ അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള്‍ ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന്‍ കൊടുത്തപ്പോള്‍ 25% വാക്കുകള്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള്‍ എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്‍ത്തനക്ഷമത കൈവരിക്കാന്‍ കഴിയൂ. യുണിക്കോഡ് ഫോര്‍മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്‍പ്പ് കിട്ടാന്‍ ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല്‍ കുറേകൂടി വാക്കുകള്‍ ചേര്‍ക്കുവാന്‍ കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള്‍ ചേര്‍ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്‍വെല്ലുവിളിയാണ്. 10 വാക്കുകള്‍ വരെ കൂട്ടിച്ചേര്‍ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന്‍ 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്‍ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന്‍ പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള്‍ അപ്പോള്‍ പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില്‍ ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന്‍ തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.

Posted in Misc.

Tagged with , , .


7 Responses

Stay in touch with the conversation, subscribe to the RSS feed for comments on this post.

  1. Anonymous says

    ഈ കെവിന്‍ kevin Anderson എന്ന സായിപ്പാണെന്ന് പ്രത്യേകം പറയണേ.

    Anivar

    • admin says

      It is not Kevin Anderson,It is Kevin Atkinson, Author of GNU Aspell

  2. Anonymous says

    ടെക്സ്റ്റ് വേണോ സ്പെല്‍ ചെക്കിനായി?

    സന്തോഷേ,

    ആശംസകള്‍..! നടക്കട്ടെ..!

    ഇതിനായി 800MB യോളം [യൂണീകോഡ് മലയാളം] ടെക്സ്റ്റ് വേണമെങ്കില്‍ അറിയിക്കുക, തരുന്നതില്‍ സന്തോഷമേയുള്ളൂ. ഈയടുത്തിടെ മാത്രം പ്രവര്‍ത്തന രഹിതമായ ഈ [http://malayalam.homelinux.net/malayalam/comments/index.shtml] സൂചിക മൊത്തം ഒരു ടാര്‍ ഫയലായോ മറ്റോ അയച്ചു തരാം.

    ഇതു പോലെ തന്നെ സ്പെല്‍ ചെക്കിനു പറ്റിയ മറ്റൊരു ശേഖരം: http://groups.google.com/group/blog4comments

    ഈ-മെയിലില്‍ സദയം അറിയിക്കുമല്ലോ?

    • admin says

      Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

      സന്തോഷം.
      പക്ഷേ ഇതാരാണെന്നറിയാതെ എങ്ങനെ മെയിലയക്കും ? ഇ-മെയില്‍‌ വിലാസം തരാമോ?
      യൂണീകോഡ് മലയാളം ധാരാളമായി ആവശ്യമുണ്ട്. പക്ഷെ പ്രശ്നമതല്ല. ഈ വാക്കുകളൊക്കെ കുത്തിയിരുന്ന് അക്ഷരത്തെറ്റു പരിശോധിക്കണം. ആര്‍ക്കെങ്കിലും എന്നെ സഹായിക്കാമോ. ഇപ്പോള്‍ ഹുസൈന്‍ സാര്‍‌ മാത്രമേ ഇതില്‍‌ എന്നെ സഹായിക്കാനായി ഉള്ളൂ.
      ടെക്സ്റ്റ് അയക്കുമ്പോള്‍ അതിലെ അക്ഷരത്തെറ്റുകള്‍ തിരുത്തി അയച്ചാല്‍ ഇമ്മിണി വലിയ സന്തോഷം.
      സ്പെല്ലിങ്ങ് ചെക്കറിന്‍ മാത്രമല്ല, മിക്ക language computing related ഗവേഷണ പ്രവര്‍ത്തനങ്ങള്‍ക്കും ഇങ്ങനത്തെ ഒരു വന്‍‌ശേഖരം അത്യാവശ്യമാണ്‍.

      • Anonymous says

        Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

        യ്യോ..! ഞാന്‍ ഏവൂരാന്‍.., ഞാനാ ആ കമന്റിട്ടതു് — വിലാസവും ഒരിക്കല്‍ കൂടെ:evuraan ജീ-മെയില്‍.കോം

  3. Anonymous says

    a little help

    great effort……………….
    if you want i could spare 1 hour a day for assisting you to complete this……………for our great Malayalam
    mail me at antonyboban@gmail.com

  4. Anonymous says

    malayalam editor

    കാസര്‍കോട് വാര്‍ത്തയില്‍ കമന്‍റ് പോസ്റ്റ് ചെയ്യാന്‍ ഇംഗ്ലിഷിന് പുറമെ മലയാളം എഡിറ്റര്‍ ചേര്‍ക്കണമെന്നുണ്ട്. പോം വഴി അറിയിക്കാമോ
    kasaragodvartha@gmail.com / Pls call 9447746070



Some HTML is OK

or, reply to this post via trackback.

Powered by WP Hashcash