Aspell Malayalam Spelling checker Version 0.01-1 Released

മലയാളത്തിന് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ തിരുവോണ സമ്മാനം: ആസ്പെല്‍ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍(version 0.01-1)

1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്‍പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില്‍ ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര്‍ ഗ്നു ആസ്പെല്‍ എന്ന പ്രശസ്ത സോഫ്റ്റ്‌വെയര്‍ അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്.
1,37,348 മലയാളം വാക്കുകളും സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല്‍ ചില പിഴവുകള്‍ ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്‌വെയര്‍ ഉപയോഗിക്കുമ്പോള്‍ അത്തരം തെറ്റുകള്‍ കാണുകയാണെങ്കില്‍ ദയവായി എന്നെ അറിയിക്കുക.

ഇത് ഇന്‍സ്റ്റാള്‍ ചെയ്യാന്‍ https://savannah.nongnu.org/task/download.php?file_id=13811 എന്നിടത്തു നിന്ന് ഡൗണ്‍ലോഡ് ചെയ്ത് extract ചെയ്യുക. അതിനു ശേഷം README ഫയലില്‍ വിവരിച്ചിരിക്കുന്ന പോലെ ചെയ്യുക.

മലയാളത്തിന്റെ പ്രത്യേകതയായ,ഒന്നിലധികം വാക്കുകള്‍ കൂടിച്ചേര്‍ന്ന് പുതിയ വാക്കുകളുണ്ടാകുന്ന സവിശേഷത കൂടി കൈകാര്യം ചെയ്താല്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കര്‍ പൂര്‍ണ്ണമാവുകയുള്ളൂ. അല്ലെങ്കില്‍ പദസഞ്ചയത്തിന്റെ വലിപ്പം വളരെയധികമായിരിക്കും(ഇപ്പോള്‍ തന്നെ ഇന്ത്യയിലെ ഏറ്റവും വലിയ സ്പെല്ലിങ്ങ് ചെക്കര്‍ പദസഞ്ചയമാണിത്.). സന്ധി സമാസം നിയമങ്ങള്‍ ഈ ലക്കത്തില്‍ ഉള്‍ക്കൊള്ളിച്ചില്ലാത്തതിനാല്‍ മേല്‍പ്പറഞ്ഞ തരത്തിലുള്ള വാക്കുകള്‍പരിശോധിക്കാന്‍ ഈ സോഫ്റ്റ്‌വെയറിന് കഴിയില്ല. അതായത് മഴക്കാലം, മേഘങ്ങള്‍, എല്ലാം, ഇരുണ്ട്, കൂടി എന്നിവയെല്ലാം പരിശോധിക്കാമെങ്കിലും “മഴക്കാലമേഘങ്ങളെല്ലാമിരുണ്ടുകൂടി” എന്ന വാക്ക് പരിശോധിക്കാന്‍ ഇതിന് കഴിഞ്ഞെന്നു വരില്ല. ഇത് അടുത്ത ലക്കത്തില്‍ ഉള്‍പ്പെടുത്താന്‍ ശ്രമിക്കുന്നുണ്ട്.

ഇത്രയും വലിയ പദസഞ്ചയം ശേഖരിക്കാന്‍ എന്നെ സഹായിച്ച ഹുസ്സൈന്‍ സാറിനോട് കടപ്പാട് അറിയിച്ചുകൊള്ളുന്നു. മലയാളം വിക്കിപീഡിയ, വിവിധ ബ്ലോഗുകള്‍ എന്നിവയില്‍ നിന്നും വാക്കുകള്‍ ശേഖരിച്ചിട്ടുണ്ട്. സാങ്കേതിക സഹായങ്ങള്‍ക്ക് കെവിന്‍ അറ്റ്കിന്‍സണ്‍(ആസ്പെല്‍ രചയിതാവ്), ഗോര മൊഹന്തി(ആസ്പെല്‍ ഹിന്ദി,ഒറിയ സ്പെല്‍ ചെക്കര്‍) എന്നിവരോട് നന്ദി രേഖപ്പെടുത്തുന്നു.

ഈ പദസഞ്ചയത്തിലില്ലാത്ത വാക്കുകള്‍ പരിശോധിക്കുമ്പോള്‍, നിങ്ങള്‍ക്കത് പദസഞ്ചയത്തിലേയ്ക്ക് കൂട്ടിച്ചേര്‍ക്കാം. ഇങ്ങനെ നിങ്ങള്‍ ചേര്‍ക്കുന്ന വാക്കുകള്‍ നിങ്ങളുടെ ഹോം ഡയറക്ടറിയില്‍ .aspell.ml.pws എന്ന hidden ഫയലില്‍ ശേഖരിക്കപ്പെടും. നിങ്ങള്‍ ചേര്‍ത്ത പുതിയ വാക്കുകള്‍ മറ്റുള്ളവര്‍ക്കും ഉപകാരപ്പെടണമെന്നാഗ്രഹമുണ്ടെങ്കില്‍ ആ ഫയല്‍ എനിക്കയച്ചു തരിക. പുതിയ ലക്കങ്ങളില്‍ ആ വാക്കുകള്‍ പ്രധാന പദസഞ്ചയത്തില്‍ ചേര്‍ക്കാം.

സഹായങ്ങള്‍ക്കോ സംശയങ്ങള്‍ക്കോ ഈ മെയിലിങ്ങ് ലിസ്റ്റിലേക്കെഴുതുക.
ഈ സോഫ്റ്റ്‌വെയറിനു വേണ്ടി ഉപയോഗിച്ച പദസഞ്ചയം മറ്റു ഭാഷാഗവേഷണങ്ങള്‍ക്കുമുപയോഗിക്കാവുന്നതാണ്. ആവശ്യമുള്ളവര്‍ ബന്ധപ്പെടുക.

മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍

zwj,zwnj പ്രശ്നങ്ങള്‍ കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്‍ന്നപ്പോള്‍ Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ വികസനപ്രവര്‍ത്തങ്ങള്‍ വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില്‍ നിന്നും wikipedia യില്‍ നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്‍. ഇതുവരെ 15000 വാക്കുകള്‍ അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള്‍ ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന്‍ കൊടുത്തപ്പോള്‍ 25% വാക്കുകള്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള്‍ എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്‍ത്തനക്ഷമത കൈവരിക്കാന്‍ കഴിയൂ. യുണിക്കോഡ് ഫോര്‍മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്‍പ്പ് കിട്ടാന്‍ ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല്‍ കുറേകൂടി വാക്കുകള്‍ ചേര്‍ക്കുവാന്‍ കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള്‍ ചേര്‍ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്‍വെല്ലുവിളിയാണ്. 10 വാക്കുകള്‍ വരെ കൂട്ടിച്ചേര്‍ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന്‍ 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്‍ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന്‍ പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള്‍ അപ്പോള്‍ പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില്‍ ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന്‍ തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.

Only Aspell, no space for others…

It seems that our work on our own spell checker doesnot have any importance other than learning. Aspell is light years ahead of us.There are ispell, myspell also. But we learned a lot about the approximate string comparison, fast search on a big wordlist, candidate list generation etc.. Gora Mohanty gave valuable insights to me on Aspell and how to create the Aspell word list for Malayalam.But still problems on compound words of malayalam.. “Sandhi & Samasam” and the infinite number of words that can be created by that in malayalam is a big hurdle for us..
Can we create a dictionary with all those words?
Can we code that large set of rules?!!
Wait and See 😉