zwj,zwnj പ്രശ്നങ്ങള് കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്ന്നപ്പോള് Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര് വികസനപ്രവര്ത്തങ്ങള് വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില് നിന്നും wikipedia യില് നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്. ഇതുവരെ 15000 വാക്കുകള് അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള് ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന് കൊടുത്തപ്പോള് 25% വാക്കുകള് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള് എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്ത്തനക്ഷമത കൈവരിക്കാന് കഴിയൂ. യുണിക്കോഡ് ഫോര്മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്പ്പ് കിട്ടാന് ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല് കുറേകൂടി വാക്കുകള് ചേര്ക്കുവാന് കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള് ചേര്ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്വെല്ലുവിളിയാണ്. 10 വാക്കുകള് വരെ കൂട്ടിച്ചേര്ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന് 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന് പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള് അപ്പോള് പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില് ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന് തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.