മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍

zwj,zwnj പ്രശ്നങ്ങള്‍ കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്‍ന്നപ്പോള്‍ Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ വികസനപ്രവര്‍ത്തങ്ങള്‍ വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില്‍ നിന്നും wikipedia യില്‍ നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്‍. ഇതുവരെ 15000 വാക്കുകള്‍ അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള്‍ ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന്‍ കൊടുത്തപ്പോള്‍ 25% വാക്കുകള്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള്‍ എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്‍ത്തനക്ഷമത കൈവരിക്കാന്‍ കഴിയൂ. യുണിക്കോഡ് ഫോര്‍മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്‍പ്പ് കിട്ടാന്‍ ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല്‍ കുറേകൂടി വാക്കുകള്‍ ചേര്‍ക്കുവാന്‍ കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള്‍ ചേര്‍ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്‍വെല്ലുവിളിയാണ്. 10 വാക്കുകള്‍ വരെ കൂട്ടിച്ചേര്‍ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന്‍ 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്‍ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന്‍ പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള്‍ അപ്പോള്‍ പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില്‍ ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന്‍ തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.

7 Responses to “മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍”

  1. Anonymous says:

    ഈ കെവിന്‍ kevin Anderson എന്ന സായിപ്പാണെന്ന് പ്രത്യേകം പറയണേ.

    Anivar

  2. Anonymous says:

    ടെക്സ്റ്റ് വേണോ സ്പെല്‍ ചെക്കിനായി?

    സന്തോഷേ,

    ആശംസകള്‍..! നടക്കട്ടെ..!

    ഇതിനായി 800MB യോളം [യൂണീകോഡ് മലയാളം] ടെക്സ്റ്റ് വേണമെങ്കില്‍ അറിയിക്കുക, തരുന്നതില്‍ സന്തോഷമേയുള്ളൂ. ഈയടുത്തിടെ മാത്രം പ്രവര്‍ത്തന രഹിതമായ ഈ [http://malayalam.homelinux.net/malayalam/comments/index.shtml] സൂചിക മൊത്തം ഒരു ടാര്‍ ഫയലായോ മറ്റോ അയച്ചു തരാം.

    ഇതു പോലെ തന്നെ സ്പെല്‍ ചെക്കിനു പറ്റിയ മറ്റൊരു ശേഖരം: http://groups.google.com/group/blog4comments

    ഈ-മെയിലില്‍ സദയം അറിയിക്കുമല്ലോ?

    • admin says:

      Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

      സന്തോഷം.
      പക്ഷേ ഇതാരാണെന്നറിയാതെ എങ്ങനെ മെയിലയക്കും ? ഇ-മെയില്‍‌ വിലാസം തരാമോ?
      യൂണീകോഡ് മലയാളം ധാരാളമായി ആവശ്യമുണ്ട്. പക്ഷെ പ്രശ്നമതല്ല. ഈ വാക്കുകളൊക്കെ കുത്തിയിരുന്ന് അക്ഷരത്തെറ്റു പരിശോധിക്കണം. ആര്‍ക്കെങ്കിലും എന്നെ സഹായിക്കാമോ. ഇപ്പോള്‍ ഹുസൈന്‍ സാര്‍‌ മാത്രമേ ഇതില്‍‌ എന്നെ സഹായിക്കാനായി ഉള്ളൂ.
      ടെക്സ്റ്റ് അയക്കുമ്പോള്‍ അതിലെ അക്ഷരത്തെറ്റുകള്‍ തിരുത്തി അയച്ചാല്‍ ഇമ്മിണി വലിയ സന്തോഷം.
      സ്പെല്ലിങ്ങ് ചെക്കറിന്‍ മാത്രമല്ല, മിക്ക language computing related ഗവേഷണ പ്രവര്‍ത്തനങ്ങള്‍ക്കും ഇങ്ങനത്തെ ഒരു വന്‍‌ശേഖരം അത്യാവശ്യമാണ്‍.

      • Anonymous says:

        Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

        യ്യോ..! ഞാന്‍ ഏവൂരാന്‍.., ഞാനാ ആ കമന്റിട്ടതു് — വിലാസവും ഒരിക്കല്‍ കൂടെ:evuraan ജീ-മെയില്‍.കോം

  3. Anonymous says:

    a little help

    great effort……………….
    if you want i could spare 1 hour a day for assisting you to complete this……………for our great Malayalam
    mail me at antonyboban@gmail.com

  4. Anonymous says:

    malayalam editor

    കാസര്‍കോട് വാര്‍ത്തയില്‍ കമന്‍റ് പോസ്റ്റ് ചെയ്യാന്‍ ഇംഗ്ലിഷിന് പുറമെ മലയാളം എഡിറ്റര്‍ ചേര്‍ക്കണമെന്നുണ്ട്. പോം വഴി അറിയിക്കാമോ
    kasaragodvartha@gmail.com / Pls call 9447746070

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>