ഇതാ വരുന്നൂ, സുലേഖ

ഗൂഗിള്‍ ഈയിടെ പുറത്തിറക്കിയ ഗൂഗിള്‍ ട്രാന്‍സ്ലിറ്ററേറ്റ് എന്ന സേവനത്തില്‍ നിന്ന് പ്രചോദനമുള്‍‌ക്കൊണ്ട് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് അവതരിപ്പിയ്ക്കുന്നു, പുതിയ സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ സംരംഭം: “സുലേഖ ”

എന്താണ് സുലേഖ?

സുലേഖ gtk യില്‍ തീര്‍ത്ത ഒരു GUI ടെക്സ്റ്റ് എഡിറ്ററാണ്. വരമൊഴി, സ്വനലേഖ തുടങ്ങിയവ ഓരോ അക്ഷരത്തിനെയും ലിപ്യന്തരണം ചെയ്യുമ്പോള്‍ പദാനുപദ ലിപ്യന്തരണമാണ് സുലേഖ ചെയ്യുന്നത്. ഓരോ വാക്കും കഴിഞ്ഞ് സ്പേസ് അടിയ്ക്കുമ്പോള്‍ തൊട്ടുമുമ്പ് ടൈപ്പ് ചെയ്ത മംഗ്ലീഷ് മലയാളമായി മാറുന്നു. എഴുതിയ മംഗ്ലീഷ് ആശയക്കുഴപ്പമില്ലാതെ ഒരു മലയാളം വാക്കിന് തത്തുല്യമാണെങ്കില്‍ ആ മലയാളം വാക്ക് വരുന്നു. അല്ലെങ്കില്‍ മംഗ്ലീഷിന്റെ ഏകദേശ ലിപ്യന്തരണം നടത്തി, ആ വാക്ക് ഒരു ചുവപ്പ് അടിവരയോടു കൂടി കാണിയ്ക്കുന്നു. റൈറ്റ് ക്ലിക്ക് ചെയ്യുമ്പോള്‍ ഏറ്റവും യോജിച്ച മലയാളം വാക്കുകള്‍ മെനുവില്‍ കാണിയ്ക്കുന്നു. എന്നിട്ടും ഉദ്ദേശിച്ച വാക്ക് വന്നില്ലെങ്കില്‍ ഒരു ഓണ്‍സ്ക്രീന്‍ കീബോര്‍ഡിന്റെ സഹായത്തോടെ മൗസ് ഉപയോഗിച്ച് വാക്ക് ടൈപ്പ് ചെയ്യാം. ഇങ്ങനെ ചേര്‍ക്കുന്ന പുതിയ വാക്കുകള്‍ സുലേഖ പഠിയ്ക്കുന്നു.

ഉപയോക്താവിന് വേണമെങ്കില്‍ സുലേഖ എഡിറ്ററിനെ ഒരു സാദാ ടെക്സ്റ്റ് എഡിറ്ററായും ഉപയോഗിയ്ക്കാം. സുലേഖ അല്‍ഗോരിതം ഉപയോഗിയ്ക്കാതെ ഇന്‍സ്ക്രിപ്റ്റ്, സ്വനലേഖ, മൊഴി, ലളിത എന്നിവ ഏതെങ്കിലും ഉപയോഗിച്ച് ടൈപ്പ് ചെയ്യാം
സ്ക്രീന്‍ഷോട്ട് കാണുക

മലയാളത്തിന് വേണ്ടി മാത്രമല്ല ഇത് രൂപകല്പന ചെയ്തിരിയ്ക്കുന്നത്. ഏകദേശം അറുപതോളം ഭാഷകള്‍ (അതായത് ഗ്നു ആസ്പെല്‍ പദാവലി ലഭ്യമായ ഏതൊരു ഭാഷയും)സുലേഖയില്‍ ചേര്‍ക്കാവുന്നതാണ്. സുലേഖയില്‍ ചേര്‍ക്കുന്ന ഓരോ വാക്കും സത്യത്തില്‍ പഠിയ്ക്കുന്നത് ആസ്പെല്‍ ആണ്. ആസ്പെല്‍ പദാവലികള്‍ (പുതിയ വാക്കുകള്‍ ഹോം ഫോള്‍ഡറില്‍ ഒരു .dot file ആയി‌ ശേഖരിയ്ക്കപ്പെടും)പരസ്പരം പങ്ക് വെയ്ക്കുകയാണെങ്കില്‍, ഒരാളുടെ കമ്പ്യൂട്ടറില്‍ പഠിച്ച് വാക്കുകള്‍ മറ്റൊരാള്‍ക്ക് അയാളുടെ കമ്പ്യൂട്ടറില്‍ ഉപയോഗിയ്ക്കാം. ഒരു വെബ് ഇന്റര്‍ഫേസ് വഴി ഈ പദസഞ്ചയങ്ങളെ സിങ്ക് ചെയ്താല്‍ നമ്മുടെ കോര്‍പ്പസ് പ്രൊജക്റ്റിന് അതൊരു മുതല്‍ക്കൂട്ടാകും. അറിയാതെ ഏതെങ്കിലും തെറ്റിപഠിപ്പിച്ചാല്‍ ഒരു manual edit ലൂടെ പരിഹരിയ്ക്കാവുന്നതുമാണ്.

പാംഗോ, ജിടികെ, ആസ്പെല്‍ എന്നി സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ ലൈബ്രറികളാണ് സുലേഖയുടെ അടിത്തറ. ആസ്പെല്‍ സ്പെല്ലിങ്ങ് തിരുത്തലിനും നിര്‍ദ്ദേശങ്ങള്‍ക്കും, പദപഠനത്തിനും ഉപയോഗിയ്ക്കുമ്പോള്‍, പാംഗോ, വാക്കുകള്‍ കൈകാര്യം ചെയ്യാന്‍ ഉപയോഗിയ്ക്കുന്നു. ജിടികെ UI യ്ക്കും. ഇതിനു പുറമേ ഇന്റലിജന്റ് ട്രാന്‍സ്ലിറ്ററേഷന് വേണ്ടി C യില്‍ സ്വന്തമായി വികസിപ്പിച്ചെടുത്ത ഒരു മലയാളം word level transliteration engine ഉം
ഉണ്ട്. അത് ഒരു സ്വതന്ത്ര API ആക്കി മാറ്റുവാന്‍ ശ്രദ്ധിയ്ക്കുന്നുണ്ട്. പ്രശസ്ത ടെക്സ്റ്റ് എഡിറ്ററായ gedit ന്റെ കോഡിലെ ചില ഭാഗങ്ങള്‍ ഹാക്ക് ചെയ്താണ് എഡിറ്ററിന്റെ അടിത്തറ ഇട്ടിരിയ്ക്കുന്നത്. അതുകൊണ്ട് തന്നെ gedit നെ സുലേഖ കോഡ് ഉപയോഗിച്ച് കമ്പൈല്‍ ചെയ്ത് പൂര്‍ണ്ണമായും ഉപയോഗപ്പെടുത്തുകയും ആവാം എന്നൊരു സ്വപ്നവും ഉണ്ട്.

വികസന പ്രക്രിയയുടെ പകുതിയോളം പൂര്‍ത്തിയായ സുലേഖയുടെ കോഡ് സ്വ.മ.കയുടെ സാവന്നയിലെ ജിറ്റില്‍ (GIT : Source Code Control System)നിന്നെടുത്ത് പരിശോധിയ്ക്കാവുന്നതാണ്. പൂര്‍ണ്ണമായും ഉപയോഗയോഗ്യമാവണമെങ്കില്‍ കുറച്ചു കൂടി കാത്തിരിയ്ക്കേണ്ടി വരും.

Project Idea, Design : Praveen A (Inspired by Google Transliterate)
Design, Algorithm, Development: Santhosh Thottingal
License: GPL v3 or later version

നിര്‍ദ്ദേശങ്ങളും അഭിപ്രായങ്ങളും അറിയിക്കുക. പെട്ടെന്ന് സംരംഭം പൂര്‍ത്തിയാക്കാന്‍ ഇതിന്റെ വികസനപ്രക്രിയയില്‍ പങ്കെടുക്കാന്‍ താത്പര്യമുള്ള ഡെവലപ്പേഴ്സിനെ സ്വാഗതം ചെയ്യുന്നു.

സുലേഖയില്‍ ഇനി ചെയ്യാനുള്ളത്:
1. ഓണ്‍സ്ക്രീന്‍ കീബോര്‍ഡ്- Coding and Integration
2. Session dictionary/System dictionary Handling
3. Fixing some bugs in Transliteration system, especially the letters after Chillu.- need a small correction in the algorithm
4. Implementing the Editor Menu functions, File Handling
5. Tuning Aspell configuration for the Edit distance optimization for the best suggestions, Currently the suggestion list is too big and suggestion words include words with more than 2 edit distance. I think using the Ultra Mode of Aspell will solve this problem
6. Handling the edit inside the word
7. Web Integration

To build the code;
./configure
make

To run:
For editor :
sulekha
For standalone transliterator
sulekha manglishword

എന്റെ കമ്പ്യൂട്ടറിന് എന്റെ ഭാഷ – ഒരു സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് സംരംഭം

6 Responses to “ഇതാ വരുന്നൂ, സുലേഖ”

  1. anivar says:

    2 നിര്‍ദ്ദേശങ്ങള്‍

    സന്തോഷെ 2 കാര്യങ്ങള്‍
    1. ഇത് ഡെവലപ് ചെയ്യാനെടുത്ത സമയം കൂടി പറയുന്നത് നന്നായിരിക്കും. ഗൂഗിളിന്റേത് ഒരുവര്‍ഷം+നിരവധിപേര്‍ എന്നാണ് സിബുവിന്റെ ബ്ലോഗ്
    2. ഈ പോസ്റ്റ് ഒന്നു ഇംഗ്ലീഷിലാക്കി ഒന്നൂടി പോസ്റ്റാമോ? ഈ പോസ്റ്റ് പ്ലാനെറ്റില്‍ പോകുന്നതിനാല്‍ അത് കൂടുതല്‍ ഭാഷകളെ ഇങ്ങോട്ടാകര്‍ഷിക്കും

    അനിവര്‍

    • Anonymous says:

      Re: 2 നിര്‍ദ്ദേശങ്ങള്‍

      That is a joke Anivar. The 1 year and too many people is just un imaginable.With that kind of product release time google would reach no where.Honestly an open corpus plus an Ajax widget should take close to 30 days to develop if you have the corpus.And i guess the google corpus could mainly be built from the blogs – atlest a test corpus could be built from blogs.Infact i had taken the java code from santhosh and was planning to do this some time , but didn’t get time.
      Praveen George

    • admin says:

      Re: 2 നിര്ദ്ദേശങ്ങള്

      ഡെവലപ് ചെയ്യാന്‍ എടുത്തത് ഏതാനും ദിവസങ്ങളിലെ എന്റെ ഒഴിവു സമയം…പ്രൊജക്ട് തുടങ്ങിയത് ഒക്ടോബര്‍ 23 നു്. ഒന്നും നമ്മള്‍ സ്ക്രാച്ചില്‍ നിന്നല്ലോ തുടങ്ങുന്നത്.. സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ വികസനത്തില്‍ From scratch development വളരെ അപൂര്‍വ്വമാണ്.
      എന്തായാലും സിബു പറഞ്ഞ “വലിയൊരു ടീം ഇതിന്റെ പിന്നില്‍ ഏതാണ്ടൊരു വര്‍ഷം പണിതിട്ടുണ്ട്” എന്നത് എനിയ്ക്കത്ര വിശ്വാസം പോര..
      അതെന്തെങ്കിലുമാവട്ടെ, നമുക്കിതു മുഴുവനാക്കാന്‍ നോക്കാം..

  2. Anonymous says:

    നന്നായീ ഒരു സേര്‍വര്‍ സൈഡ് കൂടീ പുറത്തിറക്കു മാഷേ

    • Anonymous says:

      സുലേഖ കൊള്ളാം

      പക്ഷേ, യൂണിക്കോഡ് സപ്പോ‍ര്‍ട്ട് മാത്രമായാല്‍ ശരിiയാവില്ല. ആസ്കി ഫൊണ്ടുകള്‍കൂടെ സപ്പോര്‍ട്ട് ചെയ്യണം.
      മല്ലു യൂണിക്കോഡ് സപ്പോര്‍ട്ടുള്ള പ്രൊഫഷണല്‍ സ്സോഫ്റ്റ്‌വേയറ് കുറവായതിനാലാണ്,,ഈ ആവശ്യം.
      (ബ്ലോഗ് സ്പോ‍ാട്ടിലും ഇതേ ആവശ്യം പറഞ് കമറ്ന്റിയിരുന്നു)
      സ്നേഹപൂര്‍വ്വം,
      -സു-

  3. Anonymous says:

    Ism or Unicode to support by Govt???

    ok
    Information Kerala Mission is Implementing Some Data Collection Point in Hospitals,Please check this link…
    http://www.ikm.in/hk.php

    They are still using the outdated ISM Software and selling it to Hospitals.. I think it is time to act and replace the ISM nonsense with UNICODE which is easier and also free…. Please take actions…

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>