മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍

zwj,zwnj പ്രശ്നങ്ങള്‍ കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്‍ന്നപ്പോള്‍ Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ വികസനപ്രവര്‍ത്തങ്ങള്‍ വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില്‍ നിന്നും wikipedia യില്‍ നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്‍. ഇതുവരെ 15000 വാക്കുകള്‍ അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള്‍ ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന്‍ കൊടുത്തപ്പോള്‍ 25% വാക്കുകള്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള്‍ എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്‍ത്തനക്ഷമത കൈവരിക്കാന്‍ കഴിയൂ. യുണിക്കോഡ് ഫോര്‍മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്‍പ്പ് കിട്ടാന്‍ ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല്‍ കുറേകൂടി വാക്കുകള്‍ ചേര്‍ക്കുവാന്‍ കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള്‍ ചേര്‍ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്‍വെല്ലുവിളിയാണ്. 10 വാക്കുകള്‍ വരെ കൂട്ടിച്ചേര്‍ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന്‍ 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്‍ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന്‍ പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള്‍ അപ്പോള്‍ പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില്‍ ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന്‍ തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.

7 thoughts on “മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍”

  1. ഈ കെവിന്‍ kevin Anderson എന്ന സായിപ്പാണെന്ന് പ്രത്യേകം പറയണേ.

    Anivar

  2. ടെക്സ്റ്റ് വേണോ സ്പെല്‍ ചെക്കിനായി?

    സന്തോഷേ,

    ആശംസകള്‍..! നടക്കട്ടെ..!

    ഇതിനായി 800MB യോളം [യൂണീകോഡ് മലയാളം] ടെക്സ്റ്റ് വേണമെങ്കില്‍ അറിയിക്കുക, തരുന്നതില്‍ സന്തോഷമേയുള്ളൂ. ഈയടുത്തിടെ മാത്രം പ്രവര്‍ത്തന രഹിതമായ ഈ [http://malayalam.homelinux.net/malayalam/comments/index.shtml] സൂചിക മൊത്തം ഒരു ടാര്‍ ഫയലായോ മറ്റോ അയച്ചു തരാം.

    ഇതു പോലെ തന്നെ സ്പെല്‍ ചെക്കിനു പറ്റിയ മറ്റൊരു ശേഖരം: http://groups.google.com/group/blog4comments

    ഈ-മെയിലില്‍ സദയം അറിയിക്കുമല്ലോ?

    1. Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

      സന്തോഷം.
      പക്ഷേ ഇതാരാണെന്നറിയാതെ എങ്ങനെ മെയിലയക്കും ? ഇ-മെയില്‍‌ വിലാസം തരാമോ?
      യൂണീകോഡ് മലയാളം ധാരാളമായി ആവശ്യമുണ്ട്. പക്ഷെ പ്രശ്നമതല്ല. ഈ വാക്കുകളൊക്കെ കുത്തിയിരുന്ന് അക്ഷരത്തെറ്റു പരിശോധിക്കണം. ആര്‍ക്കെങ്കിലും എന്നെ സഹായിക്കാമോ. ഇപ്പോള്‍ ഹുസൈന്‍ സാര്‍‌ മാത്രമേ ഇതില്‍‌ എന്നെ സഹായിക്കാനായി ഉള്ളൂ.
      ടെക്സ്റ്റ് അയക്കുമ്പോള്‍ അതിലെ അക്ഷരത്തെറ്റുകള്‍ തിരുത്തി അയച്ചാല്‍ ഇമ്മിണി വലിയ സന്തോഷം.
      സ്പെല്ലിങ്ങ് ചെക്കറിന്‍ മാത്രമല്ല, മിക്ക language computing related ഗവേഷണ പ്രവര്‍ത്തനങ്ങള്‍ക്കും ഇങ്ങനത്തെ ഒരു വന്‍‌ശേഖരം അത്യാവശ്യമാണ്‍.

      1. Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

        യ്യോ..! ഞാന്‍ ഏവൂരാന്‍.., ഞാനാ ആ കമന്റിട്ടതു് — വിലാസവും ഒരിക്കല്‍ കൂടെ:evuraan ജീ-മെയില്‍.കോം

  3. malayalam editor

    കാസര്‍കോട് വാര്‍ത്തയില്‍ കമന്‍റ് പോസ്റ്റ് ചെയ്യാന്‍ ഇംഗ്ലിഷിന് പുറമെ മലയാളം എഡിറ്റര്‍ ചേര്‍ക്കണമെന്നുണ്ട്. പോം വഴി അറിയിക്കാമോ
    kasaragodvartha@gmail.com / Pls call 9447746070

Leave a Reply

Your email address will not be published. Required fields are marked *