GSOC 2014 – Mentoring for SMC

I am a mentor for Google Summer of Code 2014 for SMC. I will be helping Praveen Sridhar to port input methods from jquery.ime to the Firefox OS.

We started the project and Praveen already has a proof of concept ready.

Tim Chien and Rudy Lu from Mozilla is co-mentoring the same project

New version of Malayalam fonts released

Swathanthra Malayalam Computing project announced the release of new version of Malayalam unicode fonts this week. In this version, there are many improvements for popular Malayalam fonts Rachana and Meera. Dyuthi font has some bug fixes. I am listing the changes below.

  1. Meera font was small compared to other fonts. This was not really a problem in Gnome environment since fontconfig allows you to define a scaling factor to match other font size. But it was an issue in Libreoffice, KDE and mainly in Windows where this kind of scaling feature does not work. Thanks to P Suresh for a rework on glyphs and fixing this issue.
  2. Rachana, Meera and Dyuthi had wrong glyphs used as placeholder glyphs. Bugs like these are fixed.
  3. Virama 0D4D had a wrong LSB that cause the cursor positioning and glyph boundary go wrong. Fixed that bug
  4. Atomic Chilu code points introduced in Unicode 5.1 was missing in all the fonts that SMC maintained because of the controversial decision by Unicode and SMC’s stand against that. Issues still exist, but content with code point is present, to avoid any difficulties to users, added those characters to Meera and Rachana fonts.
  5. Rupee Symbols added to Meera and Rachana. Thanks to Hiran for designing Sans and Serif glyphs for Rupee.
  6. Dot Reph(0D4E) – The glyphs for this was already present in Meera but unmapped to any unicode point. GSUB Lookup tables added to the glyphs according to unicode specification.

For a more detailed change description see this mail thread. There are some minor changes as well.

Thanks to Hussain K H (designer of both Meera and Rachana) , P Suresh, Hiran for their valuable contribution. And thanks to SMC community and font users for using the fonts and reporting bugs. We hope that we can bring this new version in your favorite GNU/Linux distros soon. Wikimedia’s WebFonts extension uses Meera font and the font will be updated there soon. Next release of GNU Freefont is expected to update Malayalam glyphs using Meera and Rachana for freefont-sans and freefont-serif font respectively. We plan to update other fonts we maintain also with these changes in next versions. There are still some glyphs missing in these fonts with respect to the latest unicode version.


Sulekha: Transliteration Based Indic Texteditor

Learning how to type in our own Mother tongue is always a problem for newbies. Usually we will just use English as “yeh kya hey” while chatting/mailing. It is because of this reason the transliteration based input methods are more popular than the Inscript in some languages. Google recently released their Indic transliterate service, a web based text editor which will take English words and convert to Indic languages with the help of some machine learning.
But as far as a normal user is concerned there are many things missing there. It works only if you are online, the suggestions it is listing for English words are often wrong words with spelling mistakes, not a free software etc..
It is in this context, I tried to develop a Desktop application which will act as transliteration based text editor with almost all features of Google transliterate and with some extra features. The project is called as ‘Sulekha”, meaning “one who writes well”
What is Sulekha
Sulekha is a GTK based text editor. It transliterated the English words to Malayalam (It is not only designed for Malayalam. but I started it for Malayalam) when user types space/newline. If the transliterated word is an actual Malayalam word , Sulekha will replace the English word with the Malayalam word. Other wise we will try to get an exact match from the dictionary we have. If there are multiple words which matches the transliterated word, we will show it as an option list, just like a spell checker. If there is no suggestions, there is a onscreen keyboard, using that user can type using mouse and we will add that new word to the dictionary. Thereby Sulekha learns new words.

If one experienced user wants to use type some words using any input methods, we can disable the sulekha algorithm as well. Then it works as a normal text editor. Sulekha uses Aspell for word learning and suggestions. There is a transliteration engine which transliterated the word to a particular language.
So it is possible to extend Sulekha to any language having Aspell word list. Just need to write one transliteration engine which it language specific. Sulekha editor is a hack on the gtkspell library code which works as a basis for GEDIT text editor. If possible, we can think about a web based sync of word lists also.

The project is not complete, but the code is available in the GIT repository of Swathanthra Malayalam Computing at Savannah
To build the code;

To run:
For editor :
For commandline transliterator
sulekha englishword_to_transliterate

This is the TODO list of Sulekha as of now
1. Onscreen keyboard- Coding and Integration
2. Session dictionary/System dictionary Handling
3. Fixing some bugs in Transliteration system, especially the letters after Chillu.- need a small correction in the algorithm
4. Implementing the Editor Menu functions, File Handling
5. Tuning Aspell configuration for the Edit distance optimization for the best suggestions, Currently the suggestion list is too big and suggestion words include words with more than 2 edit distance.
6. Handling the edit inside the word
7. Web Integration

If you are interested in this project/adding new language support please contact santhosh00 at

Happy Hacking!!!

ഇതാ വരുന്നൂ, സുലേഖ

ഗൂഗിള്‍ ഈയിടെ പുറത്തിറക്കിയ ഗൂഗിള്‍ ട്രാന്‍സ്ലിറ്ററേറ്റ് എന്ന സേവനത്തില്‍ നിന്ന് പ്രചോദനമുള്‍‌ക്കൊണ്ട് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് അവതരിപ്പിയ്ക്കുന്നു, പുതിയ സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ സംരംഭം: “സുലേഖ ”

എന്താണ് സുലേഖ?

സുലേഖ gtk യില്‍ തീര്‍ത്ത ഒരു GUI ടെക്സ്റ്റ് എഡിറ്ററാണ്. വരമൊഴി, സ്വനലേഖ തുടങ്ങിയവ ഓരോ അക്ഷരത്തിനെയും ലിപ്യന്തരണം ചെയ്യുമ്പോള്‍ പദാനുപദ ലിപ്യന്തരണമാണ് സുലേഖ ചെയ്യുന്നത്. ഓരോ വാക്കും കഴിഞ്ഞ് സ്പേസ് അടിയ്ക്കുമ്പോള്‍ തൊട്ടുമുമ്പ് ടൈപ്പ് ചെയ്ത മംഗ്ലീഷ് മലയാളമായി മാറുന്നു. എഴുതിയ മംഗ്ലീഷ് ആശയക്കുഴപ്പമില്ലാതെ ഒരു മലയാളം വാക്കിന് തത്തുല്യമാണെങ്കില്‍ ആ മലയാളം വാക്ക് വരുന്നു. അല്ലെങ്കില്‍ മംഗ്ലീഷിന്റെ ഏകദേശ ലിപ്യന്തരണം നടത്തി, ആ വാക്ക് ഒരു ചുവപ്പ് അടിവരയോടു കൂടി കാണിയ്ക്കുന്നു. റൈറ്റ് ക്ലിക്ക് ചെയ്യുമ്പോള്‍ ഏറ്റവും യോജിച്ച മലയാളം വാക്കുകള്‍ മെനുവില്‍ കാണിയ്ക്കുന്നു. എന്നിട്ടും ഉദ്ദേശിച്ച വാക്ക് വന്നില്ലെങ്കില്‍ ഒരു ഓണ്‍സ്ക്രീന്‍ കീബോര്‍ഡിന്റെ സഹായത്തോടെ മൗസ് ഉപയോഗിച്ച് വാക്ക് ടൈപ്പ് ചെയ്യാം. ഇങ്ങനെ ചേര്‍ക്കുന്ന പുതിയ വാക്കുകള്‍ സുലേഖ പഠിയ്ക്കുന്നു.

ഉപയോക്താവിന് വേണമെങ്കില്‍ സുലേഖ എഡിറ്ററിനെ ഒരു സാദാ ടെക്സ്റ്റ് എഡിറ്ററായും ഉപയോഗിയ്ക്കാം. സുലേഖ അല്‍ഗോരിതം ഉപയോഗിയ്ക്കാതെ ഇന്‍സ്ക്രിപ്റ്റ്, സ്വനലേഖ, മൊഴി, ലളിത എന്നിവ ഏതെങ്കിലും ഉപയോഗിച്ച് ടൈപ്പ് ചെയ്യാം
സ്ക്രീന്‍ഷോട്ട് കാണുക

മലയാളത്തിന് വേണ്ടി മാത്രമല്ല ഇത് രൂപകല്പന ചെയ്തിരിയ്ക്കുന്നത്. ഏകദേശം അറുപതോളം ഭാഷകള്‍ (അതായത് ഗ്നു ആസ്പെല്‍ പദാവലി ലഭ്യമായ ഏതൊരു ഭാഷയും)സുലേഖയില്‍ ചേര്‍ക്കാവുന്നതാണ്. സുലേഖയില്‍ ചേര്‍ക്കുന്ന ഓരോ വാക്കും സത്യത്തില്‍ പഠിയ്ക്കുന്നത് ആസ്പെല്‍ ആണ്. ആസ്പെല്‍ പദാവലികള്‍ (പുതിയ വാക്കുകള്‍ ഹോം ഫോള്‍ഡറില്‍ ഒരു .dot file ആയി‌ ശേഖരിയ്ക്കപ്പെടും)പരസ്പരം പങ്ക് വെയ്ക്കുകയാണെങ്കില്‍, ഒരാളുടെ കമ്പ്യൂട്ടറില്‍ പഠിച്ച് വാക്കുകള്‍ മറ്റൊരാള്‍ക്ക് അയാളുടെ കമ്പ്യൂട്ടറില്‍ ഉപയോഗിയ്ക്കാം. ഒരു വെബ് ഇന്റര്‍ഫേസ് വഴി ഈ പദസഞ്ചയങ്ങളെ സിങ്ക് ചെയ്താല്‍ നമ്മുടെ കോര്‍പ്പസ് പ്രൊജക്റ്റിന് അതൊരു മുതല്‍ക്കൂട്ടാകും. അറിയാതെ ഏതെങ്കിലും തെറ്റിപഠിപ്പിച്ചാല്‍ ഒരു manual edit ലൂടെ പരിഹരിയ്ക്കാവുന്നതുമാണ്.

പാംഗോ, ജിടികെ, ആസ്പെല്‍ എന്നി സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ ലൈബ്രറികളാണ് സുലേഖയുടെ അടിത്തറ. ആസ്പെല്‍ സ്പെല്ലിങ്ങ് തിരുത്തലിനും നിര്‍ദ്ദേശങ്ങള്‍ക്കും, പദപഠനത്തിനും ഉപയോഗിയ്ക്കുമ്പോള്‍, പാംഗോ, വാക്കുകള്‍ കൈകാര്യം ചെയ്യാന്‍ ഉപയോഗിയ്ക്കുന്നു. ജിടികെ UI യ്ക്കും. ഇതിനു പുറമേ ഇന്റലിജന്റ് ട്രാന്‍സ്ലിറ്ററേഷന് വേണ്ടി C യില്‍ സ്വന്തമായി വികസിപ്പിച്ചെടുത്ത ഒരു മലയാളം word level transliteration engine ഉം
ഉണ്ട്. അത് ഒരു സ്വതന്ത്ര API ആക്കി മാറ്റുവാന്‍ ശ്രദ്ധിയ്ക്കുന്നുണ്ട്. പ്രശസ്ത ടെക്സ്റ്റ് എഡിറ്ററായ gedit ന്റെ കോഡിലെ ചില ഭാഗങ്ങള്‍ ഹാക്ക് ചെയ്താണ് എഡിറ്ററിന്റെ അടിത്തറ ഇട്ടിരിയ്ക്കുന്നത്. അതുകൊണ്ട് തന്നെ gedit നെ സുലേഖ കോഡ് ഉപയോഗിച്ച് കമ്പൈല്‍ ചെയ്ത് പൂര്‍ണ്ണമായും ഉപയോഗപ്പെടുത്തുകയും ആവാം എന്നൊരു സ്വപ്നവും ഉണ്ട്.

വികസന പ്രക്രിയയുടെ പകുതിയോളം പൂര്‍ത്തിയായ സുലേഖയുടെ കോഡ് സ്വ.മ.കയുടെ സാവന്നയിലെ ജിറ്റില്‍ (GIT : Source Code Control System)നിന്നെടുത്ത് പരിശോധിയ്ക്കാവുന്നതാണ്. പൂര്‍ണ്ണമായും ഉപയോഗയോഗ്യമാവണമെങ്കില്‍ കുറച്ചു കൂടി കാത്തിരിയ്ക്കേണ്ടി വരും.

Project Idea, Design : Praveen A (Inspired by Google Transliterate)
Design, Algorithm, Development: Santhosh Thottingal
License: GPL v3 or later version

നിര്‍ദ്ദേശങ്ങളും അഭിപ്രായങ്ങളും അറിയിക്കുക. പെട്ടെന്ന് സംരംഭം പൂര്‍ത്തിയാക്കാന്‍ ഇതിന്റെ വികസനപ്രക്രിയയില്‍ പങ്കെടുക്കാന്‍ താത്പര്യമുള്ള ഡെവലപ്പേഴ്സിനെ സ്വാഗതം ചെയ്യുന്നു.

സുലേഖയില്‍ ഇനി ചെയ്യാനുള്ളത്:
1. ഓണ്‍സ്ക്രീന്‍ കീബോര്‍ഡ്- Coding and Integration
2. Session dictionary/System dictionary Handling
3. Fixing some bugs in Transliteration system, especially the letters after Chillu.- need a small correction in the algorithm
4. Implementing the Editor Menu functions, File Handling
5. Tuning Aspell configuration for the Edit distance optimization for the best suggestions, Currently the suggestion list is too big and suggestion words include words with more than 2 edit distance. I think using the Ultra Mode of Aspell will solve this problem
6. Handling the edit inside the word
7. Web Integration

To build the code;

To run:
For editor :
For standalone transliterator
sulekha manglishword

എന്റെ കമ്പ്യൂട്ടറിന് എന്റെ ഭാഷ – ഒരു സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് സംരംഭം

സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ്, GSOC Mentor Summit ല്‍ പങ്കെടുക്കുന്നു.

2007 ലെ ഗൂഗിള്‍ സമ്മര്‍ ഓഫ് കോഡ് പരിപാടിയുടെ ഭാഗമായി കാലിഫോര്‍ണിയയില്‍ ഒക്ടോബര്‍ ആറിന് ഗൂഗിള്‍ ഹെഡ് ക്വാര്‍ട്ടേഴ്സില്‍ നടക്കുന്ന Google summer of code Mentors Summit പരിപാടിയില്‍ SMC യുടെ പ്രതിനിധിയായി പ്രവീണ്‍ പങ്കെടുക്കുന്നു. GSOC 2007 ല്‍ പങ്കെടുത്ത മെന്റര്‍മാരുടെ സമ്മേളനമാണിത്. ഈ വര്‍ഷം ഇന്ത്യയില്‍ നിന്ന് ഈ പരിപാടിക്ക് തെരഞ്ഞെടുക്കപ്പെട്ട ഏക സ്വതന്ത്ര കൂട്ടായ്മ SMC ആയതു കൊണ്ട് SMC ഇന്ത്യയെക്കൂടി ഈ പരിപാടിയില്‍ പ്രതിനിധാനം ചെയ്യുന്നു.

പ്രവീണിന് യാത്രാമംഗളങ്ങള്‍ നേരുന്നു.

വിദ്യാര്‍ത്ഥികളെ സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ വികസനരീതികള്‍ പരിചയപ്പെടുത്തുന്നതിനും അവരുടെ സര്‍ഗ്ഗാത്മകമായ സോഫ്റ്റ്‌‌വെയര്‍ സംരംഭ ആശയങ്ങളെ പ്രോത്സാഹിപ്പിക്കുന്നതിനും വേണ്ടി എല്ലാ വര്‍ഷവും ഗൂഗിള്‍ ലോകമെങ്ങും നടത്തുന്ന പരിപാടിയാണ് ഗൂഗിള്‍ സമ്മര്‍ ഓഫ് കോഡ്. സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ മേഖലയില്‍ പ്രവര്‍ത്തിക്കുന്ന കൂട്ടായ്മകളുടെ കീഴിലാണ് വിദ്യാര്‍ത്ഥികള്‍ സോഫ്റ്റ്‌വെയറുകള്‍ വികസിപ്പിക്കേണ്ടത്. ഓരോ വിദ്യാര്‍ത്ഥിക്കും ഒരു മാര്‍ഗ്ഗദര്‍ശിയെ ഈ സംഘടനയില്‍ നിന്ന് തിരഞ്ഞെടുക്കുന്നു. തെരഞ്ഞെടുക്കുന്ന സോഫ്റ്റ്‌വെയര്‍ സംരംഭ ആശയങ്ങള്‍ക്ക് ഗൂഗിള്‍ 4500 ഡോളര്‍ (ഏകദേശം 2 ലക്ഷം രൂപ) വീതം നല്‍കുന്നു. 4 മാസത്തെ സമയമാണ് അനുവദിക്കുക. ഇതിനിടയില്‍ 2 തവണ മൂല്യനിര്‍ണ്ണയം ഉണ്ട്. ഒന്നാം ഘട്ട മൂല്യ നിര്‍ണ്ണയം വിജയകരമായി പൂര്‍ത്തീകരിച്ചാല്‍ 1 ലക്ഷം രൂപ ലഭിക്കും, ബാക്കി അവസാന മൂല്യ നിര്‍ണ്ണയം പൂര്‍ത്തീകരിച്ചാലും. വികസിപ്പിച്ചെടുത്ത സോഫ്റ്റ്‌വെയറുകള്‍ സ്വതന്ത്ര സോഫ്റ്റ്‌വെയറുകളാവണമെന്ന നിര്‍ബന്ധമുണ്ട്. സംരംഭ ആശയങ്ങള്‍ സംഘടകള്‍ക്കും വിദ്യാര്‍ത്ഥികള്‍ക്കും ചേര്‍ന്ന് തീരുമാനിക്കാം.

ഈ വര്‍ഷത്തെ ഗൂഗിള്‍ സമ്മര്‍ ഓഫ് കോഡിന്റെ ഔദ്യോഗിക പ്രഖ്യാപനം വന്നത് മാര്‍ച്ച് മാസത്തിലായിരുന്നു. സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങും പങ്കെടുക്കാനായുള്ള താത്പര്യം ഗൂഗിളിനെ അറിയിച്ചു. അവസാനം തെരഞ്ഞെടുക്കപ്പെട്ട സംഘടനകളില്‍ ഏക ഇന്ത്യന്‍ കൂട്ടായ്മ സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് ആയിരുന്നു. തുടര്‍ന്ന് സംരംഭ ആശയങ്ങള്‍ വിദ്യാര്‍ത്ഥികളില്‍ നിന്ന് ക്ഷണിച്ചു. 30 ഓളം ആശയങ്ങളില്‍ നിന്ന് 7 എണ്ണം ഗൂഗിളിനു സമര്‍പ്പിച്ചു. 5 സംരംഭങ്ങള്‍ ഗൂഗിള്‍ അംഗീകരിച്ചു.
അവ ഇവയായിരുന്നു:(
1. ശാരിക മലയാളം സ്വരസംവേദിനി (Malayalam speech recognition system): Shyam Karanatt, MES Engg College Kutippuram (Mentor: Santhosh Thottingal)
2. മലയാളം OCR : Antony FM : MES engg College Kuttippuram (Mentor: Anivar Aravind)
3. മലയാളം ടൈപ്പിങ്ങ് ട്യൂട്ടര്‍ : Mobin Mohan and friends , Thrissur Govt Engg College(Mentor: Praveen A)
4. മലയാളം നിവേശന രീതികള്‍ : Jinesh K, MES engg College kuttippuram(Mentor: Suresh P)
5. ആര്‍ദ്രം മലയാളം യുണിക്കോഡ് കാലിഗ്രാഫി ഫോണ്ട്: ഹിരണ്‍ വേണുഗോപാല്‍ , VAST, Thrissur (Mentor: Hussain K H)

ഇതടക്കം മൊത്തം 8 വിദ്യാര്‍ത്ഥികള്‍ ആണ് കേരളത്തില്‍ നിന്ന് തെരഞ്ഞെടുക്കപ്പെട്ടത്..

SMC യുടെ കൂടെ ഈ സംരംഭത്തില്‍ പങ്കെടുത്തത് പ്രശസ്ത സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ കൂട്ടായ്മകളായ ഡെബിയന്‍, ഗ്നോം, മീഡിയവിക്കി, അപാഷെ, എക്ലിപ്സ് , സോപ്, തുടങ്ങിയവയാണ്.

മെയ് മാസത്തില്‍ ഇവയുടെ വികസന പ്രവര്‍ത്തനങ്ങള്‍ ആരംഭിച്ചു. ജൂലായില്‍ നടന്ന ഒന്നാം വട്ട മൂല്യ നിര്‍ണ്ണയത്തില്‍ മലയാളം OCR സംരംഭം വേണ്ടത്ര പുരോഗതി കാണിക്കാത്തതുകൊണ്ട് പുറത്താക്കപ്പെട്ടു. ആഗസ്റ്റ് അവസാനം നടന്ന അവസാനവട്ട മൂല്യനിര്‍ണ്ണയത്തില്‍ എല്ലാ സംരംഭങ്ങളും നേരത്തേ നിശ്ചയിച്ചിരുന്ന ലക്ഷ്യങ്ങള്‍ പൂര്‍ത്തീകരിച്ചതു കൊണ്ട് വിജയിച്ചു.

ശാരിക, ആര്‍ദ്രം എന്നിവ പൂ‌ര്‍ണ്ണ ലക്ഷ്യം നേടുന്നതിനായുള്ള വികസന പ്രവര്‍ത്തനങ്ങള്‍ തുടര്‍ന്നു കൊണ്ടിരിക്കുന്നു..

ഈ വര്‍ഷത്തെ GSOC യില്‍ ഏകദേശം 900 ത്തോളം സംരംഭങ്ങള്‍ നടക്കുന്നുണ്ട്.

നേരത്തെതന്നെ SMC ക്ക് പരിപാടിയില്‍ പങ്കെടുക്കുന്നതിനുള്ള ക്ഷണം ലഭിച്ചെങ്കിലും വിസയില്ലാത്തതും യാത്രാ ചെലവ് ഭീമമായതിനാലും ആരെങ്കിലും പങ്കെടുക്കുന്ന കാര്യം സംശയമായിരുന്നു. 1200 ഡോളര്‍ ഗൂഗിള്‍ യാത്രാ ചെലവിലേക്ക് തരാമെന്ന് ഏറ്റിരുന്നെങ്കിലും അതുകൊണ്ട് വിമാന ടിക്കറ്റ് കിട്ടില്ലായിരുന്നു. ഒരു സംഘടനയില്‍ നിന്ന് 3 പേര്‍ക്ക് പങ്കെടുക്കാം. ഭക്ഷണം, താമസം എന്നീ ചെലവുകള്‍ ഗൂഗിള്‍ വഹിക്കും. അവസാനം ഒരു പ്രതിനിധിയുടെ മുഴുവന്‍ വിമാന ടിക്കറ്റും ഗൂഗിള്‍ തരാമെന്നേറ്റതോടെയാണ് പ്രവീണിന് പോകാനവസരം ലഭിച്ചത്. ഗൂഗിളിന് നന്ദി!!!.

മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ പുരോഗതിക്ക് ഉതകുന്ന ഏതെങ്കിലും ആശയങ്ങള്‍ നിങ്ങളുടെ മനസ്സിലുണ്ടോ? പഠനത്തോടൊപ്പം ഒരു സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ വികസിപ്പിക്കുകയും 2 ലക്ഷത്തോളം രൂപ നേടുകയും ചെയ്യാം.. ഒരു കോളേജ് പ്രൊജക്ടിന് 2 ലക്ഷം രൂപ പ്രതിഫലം കിട്ടിയാല്‍ എങ്ങനെയിരിക്കും..ചിന്തിക്കൂ….പ്രൊജക്ട് ആശയങ്ങള്‍ മെനയൂ… SMC നിങ്ങള്‍ക്കൊപ്പം. അടുത്ത മാര്‍ച്ചില്‍ GSOC 2008 വരുമ്പോള്‍ പങ്കെടുക്കൂ…
ഇത്രയേ ഉള്ളൂ നിര്‍ബന്ധം: 1. നിങ്ങള്‍ ഒരു വിദ്യാര്‍ത്ഥിയായിരിക്കണം.(എന്‍ജിനീയറിങ്ങ് വിദ്യാര്‍ത്ഥിയാവണമെന്ന് നിര്‍ബന്ധമില്ല.) 2. മലയാളം കമ്പ്യൂട്ടിങ്ങിനെ അടിസ്ഥാനമാക്കിയാവണം ആശയം. 3. സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ ആയിരിക്കണം.

ഇതു കാണൂ ….

Aspell Malayalam Spelling checker Version 0.01-1 Released

മലയാളത്തിന് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ തിരുവോണ സമ്മാനം: ആസ്പെല്‍ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍(version 0.01-1)

1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്‍പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില്‍ ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര്‍ ഗ്നു ആസ്പെല്‍ എന്ന പ്രശസ്ത സോഫ്റ്റ്‌വെയര്‍ അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്.
1,37,348 മലയാളം വാക്കുകളും സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല്‍ ചില പിഴവുകള്‍ ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്‌വെയര്‍ ഉപയോഗിക്കുമ്പോള്‍ അത്തരം തെറ്റുകള്‍ കാണുകയാണെങ്കില്‍ ദയവായി എന്നെ അറിയിക്കുക.

ഇത് ഇന്‍സ്റ്റാള്‍ ചെയ്യാന്‍ എന്നിടത്തു നിന്ന് ഡൗണ്‍ലോഡ് ചെയ്ത് extract ചെയ്യുക. അതിനു ശേഷം README ഫയലില്‍ വിവരിച്ചിരിക്കുന്ന പോലെ ചെയ്യുക.

മലയാളത്തിന്റെ പ്രത്യേകതയായ,ഒന്നിലധികം വാക്കുകള്‍ കൂടിച്ചേര്‍ന്ന് പുതിയ വാക്കുകളുണ്ടാകുന്ന സവിശേഷത കൂടി കൈകാര്യം ചെയ്താല്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കര്‍ പൂര്‍ണ്ണമാവുകയുള്ളൂ. അല്ലെങ്കില്‍ പദസഞ്ചയത്തിന്റെ വലിപ്പം വളരെയധികമായിരിക്കും(ഇപ്പോള്‍ തന്നെ ഇന്ത്യയിലെ ഏറ്റവും വലിയ സ്പെല്ലിങ്ങ് ചെക്കര്‍ പദസഞ്ചയമാണിത്.). സന്ധി സമാസം നിയമങ്ങള്‍ ഈ ലക്കത്തില്‍ ഉള്‍ക്കൊള്ളിച്ചില്ലാത്തതിനാല്‍ മേല്‍പ്പറഞ്ഞ തരത്തിലുള്ള വാക്കുകള്‍പരിശോധിക്കാന്‍ ഈ സോഫ്റ്റ്‌വെയറിന് കഴിയില്ല. അതായത് മഴക്കാലം, മേഘങ്ങള്‍, എല്ലാം, ഇരുണ്ട്, കൂടി എന്നിവയെല്ലാം പരിശോധിക്കാമെങ്കിലും “മഴക്കാലമേഘങ്ങളെല്ലാമിരുണ്ടുകൂടി” എന്ന വാക്ക് പരിശോധിക്കാന്‍ ഇതിന് കഴിഞ്ഞെന്നു വരില്ല. ഇത് അടുത്ത ലക്കത്തില്‍ ഉള്‍പ്പെടുത്താന്‍ ശ്രമിക്കുന്നുണ്ട്.

ഇത്രയും വലിയ പദസഞ്ചയം ശേഖരിക്കാന്‍ എന്നെ സഹായിച്ച ഹുസ്സൈന്‍ സാറിനോട് കടപ്പാട് അറിയിച്ചുകൊള്ളുന്നു. മലയാളം വിക്കിപീഡിയ, വിവിധ ബ്ലോഗുകള്‍ എന്നിവയില്‍ നിന്നും വാക്കുകള്‍ ശേഖരിച്ചിട്ടുണ്ട്. സാങ്കേതിക സഹായങ്ങള്‍ക്ക് കെവിന്‍ അറ്റ്കിന്‍സണ്‍(ആസ്പെല്‍ രചയിതാവ്), ഗോര മൊഹന്തി(ആസ്പെല്‍ ഹിന്ദി,ഒറിയ സ്പെല്‍ ചെക്കര്‍) എന്നിവരോട് നന്ദി രേഖപ്പെടുത്തുന്നു.

ഈ പദസഞ്ചയത്തിലില്ലാത്ത വാക്കുകള്‍ പരിശോധിക്കുമ്പോള്‍, നിങ്ങള്‍ക്കത് പദസഞ്ചയത്തിലേയ്ക്ക് കൂട്ടിച്ചേര്‍ക്കാം. ഇങ്ങനെ നിങ്ങള്‍ ചേര്‍ക്കുന്ന വാക്കുകള്‍ നിങ്ങളുടെ ഹോം ഡയറക്ടറിയില്‍ എന്ന hidden ഫയലില്‍ ശേഖരിക്കപ്പെടും. നിങ്ങള്‍ ചേര്‍ത്ത പുതിയ വാക്കുകള്‍ മറ്റുള്ളവര്‍ക്കും ഉപകാരപ്പെടണമെന്നാഗ്രഹമുണ്ടെങ്കില്‍ ആ ഫയല്‍ എനിക്കയച്ചു തരിക. പുതിയ ലക്കങ്ങളില്‍ ആ വാക്കുകള്‍ പ്രധാന പദസഞ്ചയത്തില്‍ ചേര്‍ക്കാം.

സഹായങ്ങള്‍ക്കോ സംശയങ്ങള്‍ക്കോ ഈ മെയിലിങ്ങ് ലിസ്റ്റിലേക്കെഴുതുക.
ഈ സോഫ്റ്റ്‌വെയറിനു വേണ്ടി ഉപയോഗിച്ച പദസഞ്ചയം മറ്റു ഭാഷാഗവേഷണങ്ങള്‍ക്കുമുപയോഗിക്കാവുന്നതാണ്. ആവശ്യമുള്ളവര്‍ ബന്ധപ്പെടുക.

Matrix Digital Rain Screensaver In Malayalam!!!

മലയാള നാട്ടില്‍ മഴ തിമര്‍ത്തു പെയ്യുകയാണ്. കഴിഞ്ഞയാഴ്ച ഞാനൊരു മഴയുണ്ടാക്കാനുള്ള ശ്രമത്തിലായിരുന്നു. സാധാരണ മഴയല്ല. ഡിജിറ്റല്‍ മഴ!!!. അക്കഥയിങ്ങനെ:
1999 ല്‍ പുറത്തിറങ്ങിയ ഹോളിവുഡ് സൂപ്പര്‍ഹിറ്റ് ചലച്ചിത്രമായ മെട്രിക്സില്‍ അവതരിപ്പിക്കപ്പെട്ട കമ്പ്യൂട്ടര്‍ കോഡിന്റെ മായിക ദൃശ്യാവിഷ്കാരം – കറുത്ത സ്ക്രീനില്‍ ഉതിര്‍ന്നു വീഴുന്ന പച്ച അക്ഷരങ്ങള്‍, വളരെയേറെ ശ്രദ്ധപിടിച്ചു പറ്റുകയുണ്ടായി. മെട്രിക്സ് പരമ്പരയിലെ ചലച്ചിത്രങ്ങളില്‍ അവതരിപ്പിക്കപ്പെട്ട ഈ ഡിജിറ്റല്‍ മഴയുടെ അനുകരണമായി ധാരാളം സ്ക്രീന്‍ സേവറുകള്‍ പുറത്തിറങ്ങുകയുണ്ടായി. മിക്കതും കമ്പ്യൂട്ടര്‍ പ്രേമികളുടെ ഇഷ്ടപ്പെട്ട സ്ക്രീന്‍ സേവറുകളായി. ഗ്നു ലിനക്സിലും xscreensaver എന്ന സ്ക്രീന്‍സേവര്‍ പാക്കേജിന്റെ കൂടെ glmatrix എന്ന പേരില്‍ ഒരു കിടിലന്‍ സ്ക്രീന്‍സേവറുണ്ട്. എനിക്കേറെ ഇഷ്ടപ്പെട്ട ഒരു സ്ക്രീന്‍സേവറാണത്.
മെട്രിക്സ് സ്ക്രീന്‍സേവറില്‍ കാണിക്കുന്ന അക്ഷരങ്ങള്‍ റോമന്‍ , കാടകാന, അറബിക് എന്നിവയാണ്. ഈ അക്ഷരങ്ങള്‍ക്ക് പകരം നമ്മുടെ സ്വന്തം മലയാളം അക്ഷരങ്ങള്‍ ഉതിര്‍ന്നു വീണാലെങ്ങനെയുണ്ടാവും? ഇങ്ങനെയൊരു ആശയവുമായി ഞാന്‍ glmatrix ന്റെ കോഡ് ഡാണ്‍ലോഡ് ചെയ്തു വായിച്ചു നോക്കി.
എന്നിട്ട് ഞാനതങ്ങ് മലയാളത്തിലാക്കി . താഴെ കൊടുത്തിരിക്കുന്ന പടങ്ങള്‍ കണ്ടോ? എങ്ങനെയുണ്ട്?

ഈ സ്ക്രീന്സേവര്‍ ഇന്സ്റ്റാള്‍ ചെയ്യാന്‍ വേണ്ടി:
Gnome 2.14 version(Debian Etch,Ubuntu 6.06) ;
Gnome 2.18 version(Ubuntu 7.04) ;

Above given versions will add the screensaver to gnome-screensaver group of screensavers.
If you want to add the screensaver to xscreensaver, after installing any of the package,
Add the following line to the .xscreensaver file in your home directory. Refer the glmatrix entry in that file for reference
– GL: mlmatrix -root \n\

Other gnu/Linux distros:
Extract it, copy the mlmatrix to /usr/lib/xscreensaver, copy mlmatrix.xml to /usr/share/xscreensaver/config folder
Add the following line to the .xscreensaver file in your home directory. Refer the glmatrix entry in that file for reference
– GL: mlmatrix -root \n\

For the technical details of this application, pls contact me at santhosh00 at

മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍

zwj,zwnj പ്രശ്നങ്ങള്‍ കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്‍ന്നപ്പോള്‍ Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ വികസനപ്രവര്‍ത്തങ്ങള്‍ വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില്‍ നിന്നും wikipedia യില്‍ നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്‍. ഇതുവരെ 15000 വാക്കുകള്‍ അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള്‍ ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന്‍ കൊടുത്തപ്പോള്‍ 25% വാക്കുകള്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള്‍ എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്‍ത്തനക്ഷമത കൈവരിക്കാന്‍ കഴിയൂ. യുണിക്കോഡ് ഫോര്‍മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്‍പ്പ് കിട്ടാന്‍ ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല്‍ കുറേകൂടി വാക്കുകള്‍ ചേര്‍ക്കുവാന്‍ കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള്‍ ചേര്‍ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്‍വെല്ലുവിളിയാണ്. 10 വാക്കുകള്‍ വരെ കൂട്ടിച്ചേര്‍ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന്‍ 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്‍ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന്‍ പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള്‍ അപ്പോള്‍ പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില്‍ ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന്‍ തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.