Skip to content

മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍

zwj,zwnj പ്രശ്നങ്ങള്‍ കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്‍ന്നപ്പോള്‍ Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ വികസനപ്രവര്‍ത്തങ്ങള്‍ വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില്‍ നിന്നും wikipedia യില്‍ നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്‍. ഇതുവരെ 15000 വാക്കുകള്‍ അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള്‍ ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന്‍ കൊടുത്തപ്പോള്‍ 25% വാക്കുകള്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള്‍ എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്‍ത്തനക്ഷമത കൈവരിക്കാന്‍ കഴിയൂ. യുണിക്കോഡ് ഫോര്‍മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്‍പ്പ് കിട്ടാന്‍ ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല്‍ കുറേകൂടി വാക്കുകള്‍ ചേര്‍ക്കുവാന്‍ കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള്‍ ചേര്‍ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്‍വെല്ലുവിളിയാണ്. 10 വാക്കുകള്‍ വരെ കൂട്ടിച്ചേര്‍ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന്‍ 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്‍ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന്‍ പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള്‍ അപ്പോള്‍ പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില്‍ ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന്‍ തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.

{ 7 } Comments

  1. Anonymous | July 16, 2007 at 2:58 PM | Permalink

    ഈ കെവിന്‍ kevin Anderson എന്ന സായിപ്പാണെന്ന് പ്രത്യേകം പറയണേ.

    Anivar

  2. Anonymous | July 16, 2007 at 4:14 PM | Permalink

    ടെക്സ്റ്റ് വേണോ സ്പെല്‍ ചെക്കിനായി?

    സന്തോഷേ,

    ആശംസകള്‍..! നടക്കട്ടെ..!

    ഇതിനായി 800MB യോളം [യൂണീകോഡ് മലയാളം] ടെക്സ്റ്റ് വേണമെങ്കില്‍ അറിയിക്കുക, തരുന്നതില്‍ സന്തോഷമേയുള്ളൂ. ഈയടുത്തിടെ മാത്രം പ്രവര്‍ത്തന രഹിതമായ ഈ [http://malayalam.homelinux.net/malayalam/comments/index.shtml] സൂചിക മൊത്തം ഒരു ടാര്‍ ഫയലായോ മറ്റോ അയച്ചു തരാം.

    ഇതു പോലെ തന്നെ സ്പെല്‍ ചെക്കിനു പറ്റിയ മറ്റൊരു ശേഖരം: http://groups.google.com/group/blog4comments

    ഈ-മെയിലില്‍ സദയം അറിയിക്കുമല്ലോ?

  3. admin | July 17, 2007 at 2:51 AM | Permalink

    It is not Kevin Anderson,It is Kevin Atkinson, Author of GNU Aspell

  4. admin | July 17, 2007 at 3:00 AM | Permalink

    Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

    സന്തോഷം.
    പക്ഷേ ഇതാരാണെന്നറിയാതെ എങ്ങനെ മെയിലയക്കും ? ഇ-മെയില്‍‌ വിലാസം തരാമോ?
    യൂണീകോഡ് മലയാളം ധാരാളമായി ആവശ്യമുണ്ട്. പക്ഷെ പ്രശ്നമതല്ല. ഈ വാക്കുകളൊക്കെ കുത്തിയിരുന്ന് അക്ഷരത്തെറ്റു പരിശോധിക്കണം. ആര്‍ക്കെങ്കിലും എന്നെ സഹായിക്കാമോ. ഇപ്പോള്‍ ഹുസൈന്‍ സാര്‍‌ മാത്രമേ ഇതില്‍‌ എന്നെ സഹായിക്കാനായി ഉള്ളൂ.
    ടെക്സ്റ്റ് അയക്കുമ്പോള്‍ അതിലെ അക്ഷരത്തെറ്റുകള്‍ തിരുത്തി അയച്ചാല്‍ ഇമ്മിണി വലിയ സന്തോഷം.
    സ്പെല്ലിങ്ങ് ചെക്കറിന്‍ മാത്രമല്ല, മിക്ക language computing related ഗവേഷണ പ്രവര്‍ത്തനങ്ങള്‍ക്കും ഇങ്ങനത്തെ ഒരു വന്‍‌ശേഖരം അത്യാവശ്യമാണ്‍.

  5. Anonymous | July 17, 2007 at 3:05 AM | Permalink

    Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

    യ്യോ..! ഞാന്‍ ഏവൂരാന്‍.., ഞാനാ ആ കമന്റിട്ടതു് — വിലാസവും ഒരിക്കല്‍ കൂടെ:evuraan ജീ-മെയില്‍.കോം

  6. Anonymous | July 17, 2007 at 11:16 AM | Permalink

    a little help

    great effort……………….
    if you want i could spare 1 hour a day for assisting you to complete this……………for our great Malayalam
    mail me at antonyboban@gmail.com

  7. Anonymous | March 13, 2009 at 3:25 AM | Permalink

    malayalam editor

    കാസര്‍കോട് വാര്‍ത്തയില്‍ കമന്‍റ് പോസ്റ്റ് ചെയ്യാന്‍ ഇംഗ്ലിഷിന് പുറമെ മലയാളം എഡിറ്റര്‍ ചേര്‍ക്കണമെന്നുണ്ട്. പോം വഴി അറിയിക്കാമോ
    kasaragodvartha@gmail.com / Pls call 9447746070

Post a Comment

Your email is never published nor shared. Required fields are marked *

Powered by WP Hashcash