<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Santhosh Thottingal &#187; Malayalam</title>
	<atom:link href="http://thottingal.in/blog/tag/malayalam/feed/" rel="self" type="application/rss+xml" />
	<link>http://thottingal.in/blog</link>
	<description>/home/santhosh</description>
	<lastBuildDate>Sat, 10 Mar 2012 13:27:54 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
		<item>
		<title>New version of Malayalam fonts released</title>
		<link>http://thottingal.in/blog/2012/03/10/new-version-of-malayalam-fonts-released/</link>
		<comments>http://thottingal.in/blog/2012/03/10/new-version-of-malayalam-fonts-released/#comments</comments>
		<pubDate>Sat, 10 Mar 2012 13:24:05 +0000</pubDate>
		<dc:creator>Santhosh</dc:creator>
				<category><![CDATA[Community]]></category>
		<category><![CDATA[Malayalam]]></category>
		<category><![CDATA[Projects]]></category>
		<category><![CDATA[SMC]]></category>
		<category><![CDATA[fonts]]></category>
		<category><![CDATA[webfonts]]></category>
		<category><![CDATA[wikipedia]]></category>

		<guid isPermaLink="false">http://thottingal.in/blog/?p=390</guid>
		<description><![CDATA[Swathanthra Malayalam Computing project announced the release of new version of Malayalam unicode fonts this week. In this version, there are many improvements for popular Malayalam fonts Rachana and Meera. Dyuthi font has some bug fixes. I am listing the changes below. Meera font was small compared to other fonts. This was not really a [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://smc.org.in" target="_blank">Swathanthra Malayalam Computing</a> project<a href="http://lists.smc.org.in/pipermail/discuss-smc.org.in/2012-March/013428.html" target="_blank"> announced the release</a> of new version of Malayalam unicode fonts this week. In this version, there are many improvements for popular Malayalam fonts Rachana and Meera. Dyuthi font has some bug fixes. I am listing the changes below.</p>
<ol>
<li>Meera font was small compared to other fonts. This was not really a problem in Gnome environment since <a href="http://www.freedesktop.org/software/fontconfig/" target="_blank">fontconfig</a> allows you to define a scaling factor to match other font size. But it was an issue in Libreoffice, KDE and mainly in Windows where this kind of scaling feature does not work. Thanks to<a href="http://suruma.freeflux.net/" target="_blank"> P Suresh</a> for a rework on glyphs and fixing this issue.</li>
<li>Rachana, Meera and Dyuthi had wrong glyphs used as placeholder glyphs. <a href="https://savannah.nongnu.org/bugs/?35098" target="_blank">Bugs</a> <a href="http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=661898" target="_blank">like</a> these are fixed.</li>
<li>Virama 0D4D had a wrong LSB that cause the cursor positioning and glyph boundary go wrong. Fixed that <a href="https://bugzilla.redhat.com/show_bug.cgi?id=616324" target="_blank">bug</a><br />
<a href="http://thottingal.in/blog/wp-content/uploads/2012/03/meera-virama-cursor.png"><img class="alignnone size-full wp-image-393" title="meera-virama-cursor" src="http://thottingal.in/blog/wp-content/uploads/2012/03/meera-virama-cursor.png" alt="" width="147" height="63" /></a></li>
<li>Atomic Chilu code points introduced in Unicode 5.1 was missing in all the fonts that SMC maintained because of the controversial decision by Unicode and SMC&#8217;s stand against that. Issues still exist, but content with code point is present, to avoid any difficulties to users, added those characters to Meera and Rachana fonts.<br />
<a href="http://thottingal.in/blog/wp-content/uploads/2012/03/chillus.png"><img class="alignnone size-full wp-image-394" title="chillus" src="http://thottingal.in/blog/wp-content/uploads/2012/03/chillus.png" alt="" width="439" height="68" /></a></li>
<li>Rupee Symbols added to Meera and Rachana. Thanks to <a href="http://hiran.in" target="_blank">Hiran</a> for designing Sans and Serif glyphs for Rupee.<br />
<a href="http://thottingal.in/blog/wp-content/uploads/2012/03/rupee-meera.png"><img class="alignnone size-full wp-image-392" title="rupee-meera" src="http://thottingal.in/blog/wp-content/uploads/2012/03/rupee-meera.png" alt="" width="181" height="55" /></a></li>
<li>Dot Reph(0D4E) &#8211; The glyphs for this was already present in Meera but unmapped to any unicode point. GSUB Lookup tables added to the glyphs according to unicode specification.<br />
<a href="http://thottingal.in/blog/wp-content/uploads/2012/03/dotrepha.png"><img class="alignnone  wp-image-391" title="dotrepha" src="http://thottingal.in/blog/wp-content/uploads/2012/03/dotrepha.png" alt="" width="635" height="119" /></a></li>
</ol>
<p>For a more detailed change description see <a href="http://lists.smc.org.in/pipermail/discuss-smc.org.in/2012-February/013317.html " target="_blank">this</a> mail thread. There are some minor changes as well.</p>
<p>Thanks to Hussain K H (designer of both Meera and Rachana) , P Suresh, Hiran for their valuable contribution. And thanks to SMC community and font users for using the fonts and reporting bugs. We hope that we can bring this new version in your favorite GNU/Linux distros soon. Wikimedia&#8217;s <a href="https://www.mediawiki.org/wiki/Extension:WebFonts" target="_blank">WebFonts</a> extension uses Meera font and the font will be updated there soon. Next release of <a href="http://www.gnu.org/software/freefont/sources/" target="_blank">GNU Freefont </a>is expected to update Malayalam glyphs using Meera and Rachana for freefont-sans and freefont-serif font respectively. We plan to update other fonts we maintain also with these changes in next versions. There are still some glyphs missing in these fonts with respect to the latest unicode version.</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://thottingal.in/blog/2012/03/10/new-version-of-malayalam-fonts-released/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Identifiers In Indic Languages</title>
		<link>http://thottingal.in/blog/2011/01/08/identifiers-in-indic-languages/</link>
		<comments>http://thottingal.in/blog/2011/01/08/identifiers-in-indic-languages/#comments</comments>
		<pubDate>Sat, 08 Jan 2011 11:27:00 +0000</pubDate>
		<dc:creator>Santhosh</dc:creator>
				<category><![CDATA[Indic]]></category>
		<category><![CDATA[Malayalam]]></category>
		<category><![CDATA[CDAC]]></category>
		<category><![CDATA[icann]]></category>
		<category><![CDATA[idn]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[standards]]></category>
		<category><![CDATA[zwj]]></category>
		<category><![CDATA[zwnj]]></category>

		<guid isPermaLink="false">http://thottingal.in/blog/?p=314</guid>
		<description><![CDATA[Recently, while preparing a critique for  IDN Policy for Malayalam language prepared by CDAC,  I noticed that ICANN does not allow control characters in the domain names.  Sometime back I noticed Python 3 identifiers also does not allow control characters in the Identifiers. This blog post attempts to analyze the issue by looking at the [...]]]></description>
			<content:encoded><![CDATA[<p>Recently, while preparing a critique for  <a href="http://wiki.smc.org.in/CDAC-IDN-Critique" target="_blank">IDN Policy for Malayalam </a>language prepared by CDAC,  I noticed that ICANN does not allow control characters in the domain names.  Sometime back I noticed Python 3 identifiers also does not allow control characters in the Identifiers. This blog post attempts to analyze the issue by looking at the Unicode and ICANN specifications about these special characters.</p>
<p>Apart from the existing characters in Indic languages,  <a href="http://en.wikipedia.org/wiki/Zero-width_joiner" target="_blank">Zero width Joiner</a> and <a href="http://en.wikipedia.org/wiki/Zero-width_non-joiner" target="_blank">Zero width non joiners</a> are widely used in Indic languages to control how the ligatures are formed. For some samples on how they are used, refer the wikipedia links. Being control characters and invisible characters, they are often removed while doing normalization , particularly before doing a string comparison, or collation (sort).</p>
<p>Identifiers, the strings that uniquely represent some data often has a policy on what kind of characters it can contain. For example, email address is an identifier, which unambiguously defines somebody&#8217;s email address, does not allow &#8216;space&#8217; characters in between. Some examples for this kind of identifiers are: email ids, web domain address, variables in programming languages etc.</p>
<p>Gone are the days where identifiers can be represented only using English characters. Python 3.0+ allows  you to define a variable in program using any words that can be represented in Unicode. For more details on this Python feature read <a href="http://www.python.org/dev/peps/pep-3131/" target="_blank">PEP 3131 &#8211; Supporting Non Ascii Identifiers</a> . Some samples : <a href="http://wiki.python.org/moin/MalayalamLanguage" target="_blank">Program written in Malayalam.</a> <a href="http://wiki.python.org/moin/TamilLanguage" target="_blank">In tamil</a> , and <a href="http://wiki.python.org/moin/HindiLanguage" target="_blank">In Hindi </a></p>
<p>Same is the case of Web addresses. With the advent of Internationalized Domain Names(IDN) that allows you register web addresses in your own languages, the English only web address scene is changing.</p>
<p>But this change brings some issues in the definition of &#8216;Identifiers&#8217; &#8211; just like English, what are the characters allowed in using a domain name or programming language identifier that can be used? Standards and specifications are being drafted on this for each language. For Internationalized domain names in Indian languages,<a href="http://cdac.in/" target="_blank"> CDAC</a> is drafting the policy. For python, the PEP 3131 has specification.</p>
<p>As a general rule, Unicode standard and the standards based on Unicode does not allow you use Unicode control characters such as zwj and zwnj in identifiers. Based on that <a href="http://icann.org/" target="_blank">The <em>Internet Corporation for Assigned Names and Numbers</em> (<em>ICANN</em>)</a> , in <a href="http://tools.ietf.org/html/rfc3454#page-12" target="_blank">RFC 3454</a> , it prohibits a list of control characters. RFC 3454 is used as a specification for converting a Unicode encoded domain name to its <a href="http://en.wikipedia.org/wiki/Punycode" target="_blank">Punicode </a>version for doing the validation.  For example,Thottingal, in Malayalam- തോട്ടിങ്ങല്‍ (0D24 0D4B 0D1F 0D4D 0D1F 0D3F 0D19 0D4D 0D19 0D32 0D4D 200D), when converted to punicode becomes xn--fwcaqax2g2d7dtadc . This conversion excludes the zwj at the end of the word. If I do a reverse conversion from xn--fwcaqax2g2d7dtadc to unicode what I get is തോട്ടിങ്ങല് (0D24 0D4B 0D1F 0D4D 0D1F 0D3F 0D19 0D4D 0D19 0D32 0D4D). Note that codepoint 200D &#8211; ZWJ is removed. That means I cannot register my domain thottingal.in in Malayalam properly. You can verify this using <a href="http://demo.icu-project.org/icu-bin/idnbrowser?t=%E0%B4%A4%E0%B5%8B%E0%B4%9F%E0%B5%8D%E0%B4%9F%E0%B4%BF%E0%B4%99%E0%B5%8D%E0%B4%99%E0%B4%B2%E0%B5%8D%E2%80%8D" target="_blank">ICU online converter</a>.  Now another example, Tamilnadu &#8211; in Malayalam തമിഴ്‌നാട് (0D24 0D2E 0D3F 0D34 0D4D 200C 0D28 0D3E 0D1F 0D4D) becomes xn--lwcjmx4a2de7id. When I do a reverse conversion, I getതമിഴ്നാട് (0D24 0D2E 0D3F 0D34 0D4D 0D28 0D3E 0D1F 0D4D) . Now ZWNJ(200C) is missed. Try yourself using <a href="http://demo.icu-project.org/icu-bin/idnbrowser?t=%E0%B4%A4%E0%B4%AE%E0%B4%BF%E0%B4%B4%E0%B5%8D%E2%80%8C%E0%B4%A8%E0%B4%BE%E0%B4%9F%E0%B5%8D" target="_blank">the converter </a>. This means one cannot register a website with Tamilnadu written in Malayalam properly. The IDN policies for Indic languages are based on this exclusion rules for zwj, zwnj.</p>
<p>For python 3.0+ ,  you cannot have an identifier in programming language with zwj, zwnj  or any control character in it. See this bug report for more details:<a href="http://bugs.python.org/issue5358" target="_blank"> Issue 5358 </a></p>
<p>All of the above issues are because of the assumption that zwj,zwnj is prohibited from Identifiers for all cases. But that is not true. Look at the <a href="http://unicode.org/reports/tr31" target="_blank">Unicode Standard Annex 31</a> &#8211; &#8220;Unicode Identifier and Pattern Syntax&#8221;(TR31). TR31 is based on <a href="http://unicode.org/review/pr-96.html" target="_blank">Public Review 96</a> &#8211; &#8220;Allowing Special Characters in Identifiers&#8221;</p>
<blockquote><p><em>This annex describes specifications for recommended defaults for the        use of Unicode in the definitions of identifiers and in pattern-based syntax.        It also supplies guidelines for use of normalization with identifiers. [...]</em></p>
<p><em>default-ignorable characters are normally        excluded from Unicode identifiers. However, visible distinctions created        by certain format characters (particularly the </em><em>Join_Control characters)        are necessary  in certain languages. A        blanket exclusion of these characters makes it impossible to create        identifiers with the correct visual appearance for common words or phrases in those languages.        Identifier systems that attempt to provide more natural representations        of terms in modern, customary use should allow these        characters in input and display, but limit them to contexts in which they are necessary. [...]</em></p></blockquote>
<p>But since the characters are invisible, to meet the security considerations,  It should be clearly defined where and all we can use them. What if a domain is registered with 5 zwnj  continuously in it? It will look same to a string with 4 zwnjs. So TR31 defines 3 valid cases where zwnj and zwj can be used in an Identifier.</p>
<ul>
<li>Allow ZWNJ in breaking a cursive connection</li>
<li>Allow ZWNJ in a conjunct context (example:  തമിഴ്‌നാട് , ദൃക്‌സാക്ഷി)</li>
<li>Allow ZWJ in a conjunct context (examples:  ന + ് + zwj -&gt; ന്‍ , <big> क+  ् +  zwj -&gt; </big> <big>क्‍</big> )</li>
</ul>
<p>These 3 cases covers all zwj,zwnj usage patterns in our languages.</p>
<p>So now it is clear that Unicode standard allows them in Identifiers. In that case, there should not be a conflict between Unicode Identifier policy and ICANN policy or any other identifier policy such as PEP 3131. Blanket exclusion of these characters are not allowed. So RFC 3454 should be compatible with TR31. The IDN policy of Indic languages should be based on that new specification and not based on the existing RFC 3454. Since CDAC is responsible of Indic Domain policy, they should take responsibility for bringing this change.</p>
<p>For making a change in PEP 3131, myself and <a href="http://www.muthukadan.net/" target="_blank">Baiju M</a> started a wiki page explaining what change need to be done. <a href="http://wiki.python.org/moin/ZwjAndZwnjAsIdentifiers" target="_blank">Read it from here</a>.</p>
<p>Having said that, is it desirable to have  two domains,  one with a valid zwj/zwnj usage and another without them? Of course, they will be visually different, avoiding any possibilities for spoofing. Now the question is whether those  two words represent two words in the language?</p>
<p>As far as Malayalam is concerned there are three cases here:</p>
<ol>
<li>Missing ZWJ is considered as a spelling mistake &#8211; തമിഴ്‌നാട് (correct), തമിഴ്നാട് (incorrect) pair is an example for that.  Should we allow both domains ? I don&#8217;t know any case where a missing ZWNJ form another valid word with different meaning.</li>
<li>Missing ZWJ means , the word is a different word with different meaning. This is very rare &#8211; വന്‍യവനിക , വന്യവനിക pair is often cited an example for this. But many people argues this is not a valid case.</li>
<li>Missing ZWJ never means a spelling mistake, but just a writing style. There are many examples for this. നന്‍മ-നന്മ is one obvious one.</li>
</ol>
<p>So the question is whether a domain differing by a valid zwj/zwnj use  to an existing registered domain to be allowed or not? I would suggest to use existing policy for domain comparison for this. ie, If the collation weights of existing domain and to-be registered domains are same ,  don&#8217;t register the new one. ZWJ, ZWNJ are characters with zero collation weight and in collation or string comparison they are ignored.</p>
<div id="_mcePaste" style="overflow: hidden; position: absolute; left: -10000px; top: 10px; width: 1px; height: 1px;">http://www.python.org/dev/peps/pep-3131/PEP</div>
]]></content:encoded>
			<wfw:commentRss>http://thottingal.in/blog/2011/01/08/identifiers-in-indic-languages/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>വരമൊഴിയിലും മൊഴി കീമാനിലും എന്‍കോഡിങ്ങ് ബഗ്ഗുകള്‍</title>
		<link>http://thottingal.in/blog/2007/10/11/%e0%b4%b5%e0%b4%b0%e0%b4%ae%e0%b5%8a%e0%b4%b4%e0%b4%bf%e0%b4%af%e0%b4%bf%e0%b4%b2%e0%b5%81%e0%b4%82-%e0%b4%ae%e0%b5%8a%e0%b4%b4%e0%b4%bf-%e0%b4%95%e0%b5%80%e0%b4%ae%e0%b4%be%e0%b4%a8%e0%b4%bf%e0%b4%b2/</link>
		<comments>http://thottingal.in/blog/2007/10/11/%e0%b4%b5%e0%b4%b0%e0%b4%ae%e0%b5%8a%e0%b4%b4%e0%b4%bf%e0%b4%af%e0%b4%bf%e0%b4%b2%e0%b5%81%e0%b4%82-%e0%b4%ae%e0%b5%8a%e0%b4%b4%e0%b4%bf-%e0%b4%95%e0%b5%80%e0%b4%ae%e0%b4%be%e0%b4%a8%e0%b4%bf%e0%b4%b2/#comments</comments>
		<pubDate>Fri, 12 Oct 2007 05:14:00 +0000</pubDate>
		<dc:creator>Santhosh</dc:creator>
				<category><![CDATA[Misc]]></category>
		<category><![CDATA[Bugs]]></category>
		<category><![CDATA[computing]]></category>
		<category><![CDATA[Malayalam]]></category>
		<category><![CDATA[varamozhi]]></category>

		<guid isPermaLink="false">http://thottingal.in/blog/?p=27</guid>
		<description><![CDATA[വരമൊഴിയിലും മൊഴി കീമാനിലും ( Tavultesoft keyboard) എന്‍കോഡിങ്ങ് പിശകുകള്‍. മലയാളം വിക്കിപ്പീഡിയയിലുള്ള മൊഴി കീമാപ്പിലും ഈ പിശക് ഉണ്ട്. വാക്കുകളുടെ യൂണിക്കോഡ് കോഡ് മൂല്യങ്ങളുടെ വിന്യാസത്തിലാണ് പിശക്. അനാവശ്യമായ ZWNJ ആണ് പ്രശ്നം കുറച്ച് ഉദാഹരണങ്ങളിലൂടെ ഇത് വിശദമാക്കാം. മൊഴി പൊന്‍നിലാവ് (pon_nilaav): ഈ വാക്കിന്റെ ആന്തരിക യൂണിക്കോഡ് റെപ്രസന്റേഷന്‍ എന്താണെന്നറിയാന്‍ പൈത്തണ്‍ പ്രോഗ്രാമ്മിങ്ങ് ഭാഷ ഉപയോഗിക്കാം. >>>str=u&#8221;പൊന്‍‌നിലാവ്&#8221; >>>print repr(str) u&#8217;\u0d2a\u0d4a\u0d28\u0d4d\u200d\u200c\u0d28\u0d3f\u0d32\u0d3e\u0d35\u0d4d&#8217; \u200c(ZWNJ) എന്ന കോഡ് ഇവിടെ അനാവശ്യമാണ്. പൊന്‍നിലാവ് എന്ന വാക്കിന്റെ യഥാര്‍ത്ഥ [...]]]></description>
			<content:encoded><![CDATA[<p>വരമൊഴിയിലും മൊഴി കീമാനിലും ( Tavultesoft keyboard)  എന്‍കോഡിങ്ങ് പിശകുകള്‍. മലയാളം വിക്കിപ്പീഡിയയിലുള്ള മൊഴി കീമാപ്പിലും ഈ പിശക് ഉണ്ട്. വാക്കുകളുടെ യൂണിക്കോഡ്  കോഡ് മൂല്യങ്ങളുടെ വിന്യാസത്തിലാണ് പിശക്. അനാവശ്യമായ ZWNJ ആണ് പ്രശ്നം<br />
<br />
കുറച്ച് ഉദാഹരണങ്ങളിലൂടെ ഇത് വിശദമാക്കാം.<br />
<b>മൊഴി</b><br />
<br />
പൊന്‍നിലാവ് (pon_nilaav):  ഈ വാക്കിന്റെ ആന്തരിക യൂണിക്കോഡ് റെപ്രസന്റേഷന്‍ എന്താണെന്നറിയാന്‍ പൈത്തണ്‍ പ്രോഗ്രാമ്മിങ്ങ് ഭാഷ ഉപയോഗിക്കാം.</p>
<blockquote><p>
>>>str=u&#8221;പൊന്‍‌നിലാവ്&#8221; <br />
>>>print repr(str) <br />
u&#8217;\u0d2a\u0d4a\u0d28\u0d4d\u200d<font color="red">\u200c</font>\u0d28\u0d3f\u0d32\u0d3e\u0d35\u0d4d&#8217;
</p></blockquote>
<p>\u200c(ZWNJ) എന്ന  കോഡ് ഇവിടെ അനാവശ്യമാണ്. പൊന്‍നിലാവ് എന്ന വാക്കിന്റെ യഥാര്‍ത്ഥ യൂണിക്കോഡ് ശ്രേണി ഇതാണ്:<br />
u&#8217;\u0d2a\u0d4a\u0d28\u0d4d\u200d\u0d28\u0d3f\u0d32\u0d3e\u0d35\u0d4d&#8217;<br />
<br />
ഇത്തരത്തിലുള്ള മറ്റു ചില വാക്കുകളിതാ:(മൊഴി കീമാന്‍ ഉപയോഗിച്ചെഴുതിയത്)- വാക്കുകള്‍ക്കിടയില്‍ ചില്ലക്ഷരം വരുന്നവ:<br />
മുന്‍‌തൂക്കം, എന്‍‌കോഡിംഗ്, ചാരന്‍‌മാരാണ് ,നന്‍‌മ,പാന്‍‌ഗോ,പിന്‍‌താങ്ങുന്നുവെന്നു,പിന്‍‌തിരിയണമെന്നും,പിന്‍‌പക്കത്തില്‍,പിന്‍‌വലിഞ്ഞു ,പൊന്‍‌വീണ,പൗരന്‍‌മാര്‍,മന്‍‌മോഹന്‍,മുന്‍‌കൂട്ടി,മുന്‍‌കൈ,<br />
മുന്‍‌ഗണനകള്‍, മുന്‍‌ധാരണകളില്ലാതെ, മുന്‍‌വിധികളും, റേഷന്‍‌കാര്‍ഡിനും,സല്‍മാന്‍‌ഖാനും,സെന്‍‌ട്രല്‍ , താല്‍‌പര്യം, ഉല്‍‌പന്നം, കല്‍‌പിച്ച്,നല്‍‌കാനും, മേല്‍‌വിവരിച്ച, വില്‍‌ക്കപ്പെടുന്ന, ശില്‍‌പശാല, ലോസ്ഏഞ്ചല്‍‌സ്, കണ്‍‌വഴി, കണ്‍‌വെട്ടം , പൊന്‍നാളം, കല്‍വിളക്ക്‌<br />
താല്‍‌പര്യം = thaal_paryam</p>
<blockquote><p>>>> str=u&#8221;താല്‍‌പര്യം&#8221;<br />
>>> print repr(str)<br />
u&#8217;\u0d24\u0d3e\u0d32\u0d4d\u200d<font color="red">\u200c</font>\u0d2a\u0d30\u0d4d\u0d2f\u0d02&#8242;
</p></blockquote>
<p>ZWNJ പക്ഷേ  ZWJ (U+200D) എന്നതിന് ശേഷം ഇടേണ്ട കാര്യമില്ല .  ZWJ ഉള്ളതുകൊണ്ട് തുടര്‍ന്നു വരുന്ന അക്ഷരങ്ങളുമായുള്ള  കൂടിച്ചേരല്‍ സംഭവിക്കില്ല.  മൊഴിയുടെ അല്‍ഗോരിതം എന്തുകൊണ്ടോ ZWNJ യും ഇടുന്നു.<br />
അതായത് വാക്കുകള്‍ക്കിടയില്‍ മാത്രമല്ല , ചില്ലക്ഷരമെഴുതാന്‍ n, l, L, r,R,N എന്നിവക്ക് പകരം എവിടെയൊക്കെ l_, n_,L_, r_,R_ ,N_ എന്നിവ ഉപയോഗിക്കുന്നുവോ അവിടെയെല്ലാം എന്‍കോഡിങ്ങ് പിശകാണ്. മൊഴി സ്കീമില്‍ l_, n_,L_, r_,R_ ,N_ എന്നിവയാണ് ചില്ലക്ഷരങ്ങള്‍ക്ക് ഉപയോഗിക്കേണ്ടത് എന്ന് പറഞ്ഞിരിക്കുന്നു.<br />
<br />
ഈ ഉദാഹരണം ശ്രദ്ധിക്കൂ<br />
അവള്‍= avaL_<br />
<blockquote>
>>> str=u&#8221;അവള്‍‌&#8221;<br />
>>> print repr(str)<br />
u&#8217;\u0d05\u0d35\u0d33\u0d4d\u200d<font color="red">\u200c&#8217;</font></p></blockquote>
<p>
അവസാനമുള്ള ZWNJ (u+200C) ശ്രദ്ധിക്കുക. ഈ &#8220;അവള്‍ &#8221; ഒരിക്കലും തിരഞ്ഞാല്‍ കിട്ടാത്തവളാണെന്ന് വ്യക്തമാണല്ലോ.<br />
<br />
ഈ പ്രശ്നം സിബു http://varamozhi.wikia.com/wiki/Help:Contents/Known_Problems<br />
എന്ന പേജില് ചേര്‍ത്തിട്ടുണ്ട്.<br />
<br />
മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ  ചില പരീക്ഷണങ്ങള്‍ക്കിടയിലാണ് ഈ ബഗ്ഗ് എന്റെ ശ്രദ്ധയില്‍ പെട്ടത്. ചില വാക്കുകള്‍ എപ്പോളും സ്പെല്ലിങ്ങ് മിസ്റ്റേക്ക് കാണിക്കുന്നതിന്റെ കാരണം അന്വേഷിച്ചപ്പോള്‍ കണ്ടെത്തിയതാണിത്. സ്പെല്ലിങ്ങ് ചെക്കറിനായി ഞാന്‍ ശേഖരിച്ച പദശേഖരത്തില്‍ ഇത്തരത്തിലുള്ള ഏതാനും വാക്കുകള്‍ കയറിക്കൂടിയിട്ടുണ്ട്. വിക്കിയിലോ ബ്ലോഗുകളിലോ,  മൊഴിയോ വരമൊഴിയോ ഉപയോഗിച്ചെഴുതിയ വാക്കുകളാകണം.</p>
<p><strong>വരമൊഴിയിലും ബഗ്ഗ്</strong><br />
<br />
http://varamozhi.wikia.com/wiki/Help:Contents/Mozhi എന്ന   വിക്കി താളില്‍ പറഞ്ഞിരിക്കുന്നു:<br />
<em>&#8216;പിന്‍നിലാവ്‌&#8217; എന്ന വാക്കു ശ്രദ്ധിക്കൂ. മംഗ്ലീഷില്‍ pinnilaav~ എന്നാണെഴുതേണ്ടത്‌ എന്നാവും ആദ്യം തോന്നുക. പക്ഷെ, കമ്പ്യൂട്ടറിനൊരു സംശയമുണ്ടാവും; അതിനെ &#8216;പിന്നിലാവ്‌&#8217; എന്ന്‌ വായിച്ചാലെന്തെന്ന്‌. സംശയം ന്യായമാണ്‌. ഈയൊരു ആശയക്കുഴപ്പത്തിനിടയാക്കാത്ത വിധം പ്രശ്നം തീര്‍ക്കുന്നതിനാണ്‌ &#8216;_&#8217; (underscore) എന്ന Zero Width Space (ZWS) &#8211; വലിപ്പമില്ലാ ചിഹ്നം.</em><br />
<br />
ഇവിടെ ZWS എന്നത് ഒരു അനാവശ്യ യുണിക്കോഡ് കോഡ് മൂല്യമല്ലേ?  ZWS ഇല്ലാതെ തന്നെ പിന്‍നിലാവ് എന്ന് എഴുതാനും പറ്റും. ZWS ഇടേണ്ടിവരുന്നത് സോഫ്റ്റ്‌വെയറിലെ ബഗ്ഗ് മൂലമല്ലേ?  ഇനി വേറൊന്ന് :</p>
<p>വരമൊഴി ഉപയോഗിച്ച് ഞാന്‍ എന്റെ പേര് എഴുതി നോക്കി. സന്തോഷ് =santhOsh<br />
<blockquote>
>>> str=u&#8221;സന്തോഷ്‌&#8221;<br />
>>> print repr(str)<br />
u&#8217;\u0d38\u0d28\u0d4d\u0d24\u0d4b\u0d37\u0d4d<font color="red">\u200c</font>&#8216;</p></blockquote>
<p>വാക്കിന്റെ അവസാനമുള്ള ZWNJ ശ്രദ്ധിക്കുക.<br />
ഇന്‍സ്ക്രിപ്റ്റ്  ഉപയോഗിച്ച് സന്തോഷ് എന്നെഴുതിയപ്പോള്‍:<br />
<blockquote>
>>> str=u&#8221;സന്തോഷ്‌&#8221;<br />
>>> print repr(str)<br />
u&#8217;\u0d38\u0d28\u0d4d\u0d24\u0d4b\u0d37\u0d4d&#8217;</p></blockquote>
<p>വരമൊഴി ഉപയോഗിച്ച് പൊന്‍നിലാവ് എഴുതുമ്പോള്‍:<br />
<blockquote>
>>>str=u&#8221;പൊന്‍നിലാവ്‌&#8221;<br />
>>>print repr(str) <br />
u&#8217;\u0d2a\u0d4a\u0d28\u0d4d\u200d\u0d28\u0d3f\u0d32\u0d3e\u0d35\u0d4d<font color="red">\u200c</font>&#8216; </p></blockquote>
<p>അവന് avan~</p>
<blockquote><p>
>>> str=u&#8221;അവന്‌&#8221;<br />
>>> print repr(str)<br />
u&#8217;\u0d05\u0d35\u0d28\u0d4d<font color="red">\u200c</font>&#8216;
</p></blockquote>
<p>മേല്‍പറഞ്ഞ ഉദാഹരണങ്ങളില്‍ \u0d4d (ചന്ദ്രക്കല)  എന്നതിന് ശേഷം \u200c വരുന്നതെങ്ങനെ?<br />
മൊഴിയിലെഴുതിയതും , വരമൊഴിയിലെഴുതിയതും, ഇന്‍സ്ക്രിപ്റ്റിലെഴുതിയതുമായ പൊന്‍നിലാവ്‌ എന്ന വാക്കിന്  3 എന്‍കോഡിങ്ങ്!  അതായത്  കമ്പ്യൂട്ടറിനെ സംബന്ധിച്ചിടത്തോളം  മൂന്നും മൂന്ന് മലയാളം വാക്കുകള്‍!<br />
<br />
ഈ ബഗ്ഗുകളെല്ലാം സിബുവിനെയും പെരിങ്ങോടനെയും അറിയിച്ചിട്ടുണ്ട്. ബഗ്ഗാണെന്നാണ് അവരും അംഗീകരിച്ചു.<br />
അവരുമായുള്ള ഈ മെയില്‍ സംവാദത്തില്‍ നിന്ന് :</p>
<p>പെരിങ്ങോടന്‍:<br />
മൊഴിയാണെങ്കില്‍ ~ ഉപയോഗിക്കുന്നത്<br />
 <br />
1. ഒരു വാക്കിനു നടുവില്‍ ആണെങ്കില്‍ അടുത്തുവരുന്ന അക്ഷരത്തെ ചന്ദ്രക്കല ഉള്ള തൊട്ടുമുമ്പിലെ അക്ഷരവുമായി കൂട്ടിച്ചേര്‍ക്കുവാന്‍ ആഗ്രഹിക്കുന്നില്ല എന്ന അസമ്പ്ഷന്‍<br />
2. ഒരു വാക്കിനു അവസാനത്തിലാണെങ്കില്‍ ചന്ദ്രക്കലയ്ക്കു പകരം ചില്ലുരൂപങ്ങള്‍ വരുന്ന വാക്കുകളില്‍ ചന്ദ്രക്കല സൂചിപ്പിക്കുവാന്‍ (സന്തോഷ് എന്നെഴുതുവാന്‍ santhOsh എന്നുമതി, അവസാനത്തെ ~ ആവശ്യമില്ല, അവന്‌ എന്നെഴുതുവാന്‍ ~ ആവശ്യമുണ്ട്)</p>
<p>ഇവിടെ രണ്ടാമത്തെ ഉപയോഗത്തില്‍ ഒരു ബഗ്ഗുണ്ട്, വാക്കുകള്‍ക്കു നടുവില്‍ ചന്ദ്രക്കല എഴുതുമ്പോള്‍ ഇടുന്ന ZWNJ വാക്കുകള്‍ക്കു അവസാനവും വന്ന് പോകുന്നുണ്ട്, ഒരാള്‍ എഴുതിക്കൊണ്ടിരിക്കുമ്പോള്‍ അത് വാക്കിന്റെ അവസാനമോ എന്ന് ഊഹിക്കുവാന്‍ കഴിയാത്തതില്‍ ആണത്. എന്നാല്‍ ZWNJ + Space -> Space എന്നൊരു റൂള്‍ ഉണ്ടെങ്കില്‍ ഈ പ്രശ്നം ഒഴിവാക്കുകയും ചെയ്യാം (or any other  special character assuming user will type those special character to resume typing, cibu has already pointed out this bug, I was reluctant to fix it considering a normal user perspective) <br />
സിബു:<br />
&#8220;ആവശ്യമില്ലാത്ത zwnj മുഴുവന്‍ ഒഴിവാക്കാന്‍ പറ്റും എന്നെനിക്ക്‌ പ്രതീക്ഷയില്ല. ath~ എന്നൊരാളെഴുതിയാല്‍ വരമൊഴി അവസാനം കൊണ്ടുപോയി zwnj ഇടും. അതാണ് യൂസര്‍ ആഗ്രഹിക്കുന്നത്‌ എന്നാണ് എന്റെ അനുമാനം. കാരണം അതുകഴിഞ്ഞുവരുന്ന ക്യാരക്റ്റര്‍ &#8216;ത&#8217;യുമായി കൂട്ടക്ഷരമുണ്ടാക്കരുത്‌ എന്നുദ്ദേശിച്ചിട്ടാവും അങ്ങനെ യൂസറിട്ടതെന്ന്‌ വരമൊഴി കരുതുന്നു.<br />
എന്നാല്‍ zwj, zwnj കോമ്പിനേഷന്റെ ആവശ്യം ഒന്നുമില്ലെന്നാണ് എനിക്ക്‌ തോന്നുന്നത്‌. അവിടെ zwnj പറ്റുമെങ്കില്‍ ഒഴിവാക്കാവുന്നതാണ്.&#8221;<br />
<br />സന്തോഷ് :<br />
പക്ഷേ സന്തോഷ് എന്നെഴുതാന് ഞാന് ~ ഉപയോഗിച്ചില്ല. santhOsh എന്നാണ്<br />
എഴുതിയത്. അപ്പോള് അതിന്റെ അറ്റത്ത് zwnj വരുന്നതെങ്ങനെ എന്ന്<br />
വിശദീകരിക്കാമോ?<br />
<br />സിബു:<br />
നോക്കി. ശരിയാണ് അവസാനം ഒരു ZWNJ വരുന്നുണ്ട്. അത്‌ ഒരു വരമൊഴി ബഗ് തന്നെ. ശരിയാക്കാന്‍ എന്തുമാത്രം എളുപ്പമാണ് എന്നറിഞ്ഞുകൂടാ എന്നു മാത്രം.  </p>
<p>ഈ എന്‍കോഡിങ്ങ് പിശകുകളുടെ ഗൗരവം ഞാന്‍ പറയാതെ തന്നെ നിങ്ങള്‍ക്ക് ബോദ്ധ്യപ്പെട്ടുവെന്നു കരുതുന്നു. മലയാളം വിക്കിപ്പീഡിയയില്‍ തെറ്റായ എന്‍കോഡിങ്ങ് ഉള്ള മലയാളം പദങ്ങള്‍ കടന്നു കൂടിയിരിക്കുന്നു. അതു പോലെ ബ്ലോഗുകളിലും, എവിടെയെല്ലാം വരമൊഴിയോ, മൊഴി കീമാനോ ഉപയോഗിച്ചുവോ അവിടെയെല്ലാം പിശകുകള്‍ കാണാനുള്ള സാധ്യത വളരെയധികമാണ്. പ്രത്യേകിച്ചും ബ്ലോഗേഴ്സിന്റെ ഇടയില്‍ വരമൊഴിയുടെ പ്രചാരം നോക്കുമ്പോള്‍.</p>
<p>മലയാളം എന്‍കോഡിങ്ങ് ഇന്‍സ്ക്രിപ്റ്റിനെയാണ് പ്രമാണമാക്കേണ്ടത്. നിവേശകരീതി ഏതായാലും അന്തര്‍ലീനമായ എന്‍കോഡിങ്ങ് ഒന്നായാലേ ഏതൊരു സോഫ്റ്റ്‌വെയറിനും അവയെ കൈകാര്യം ചെയ്യാനാകൂ. മൊഴി കീമാന് എന്‍‌കോഡിങ്ങ് എന്ന വാക്കു തന്നെ തെറ്റായേ എഴുതാനാകൂ.<br />
ഇന്‍സ്ക്രിപ്റ്റ്  ഉപയോഗിച്ച് ഒരു രചനയില്‍ ഞാന്‍ എന്റെ പേരെഴുതി എന്നിരിക്കട്ടെ. വരമൊഴി ഉപയോഗിച്ചെഴുതിയ &#8220;സന്തോഷ്&#8221;  എന്ന വാക്ക് ആ രചനയില്‍ തിരഞ്ഞാല്‍ കിട്ടില്ല. Notepad ലോ , Gedit ലോ പരീക്ഷിച്ച് നോക്കൂ.</p>
<p>അതുകൊണ്ട്:<br />
1. ഭാഷയില്‍ ഈ പ്രശ്നങ്ങള്‍ ഇനിയും കടന്നു കൂടാതിരിക്കാന്‍ മേല്‍ പറഞ്ഞ ബഗ്ഗുകള്‍ അടിയന്തിരമായി തിരുത്തേണ്ടതുണ്ട്. തെറ്റിയ അല്ഗോരിതം ഏതാണെന്ന് വ്യക്തമാക്കിയാല്‍ എല്ലാവര്‍ക്കും സഹായിക്കാന്‍ സാധിച്ചേക്കും.<br />
2. ഇപ്പോള്‍ കടന്ന് കൂടിയ ബഗ്ഗുകള്‍ എങ്ങനെ തിരുത്തണമെന്ന് നാം ആലോചിക്കേണ്ടിയിരിക്കുന്നു.(വിക്കിപ്പീഡിയയില്‍ ഒരു ബോട്ട്  ഉപയോഗിക്കേണ്ടി വന്നേക്കും എന്നാണ് സിബു എന്നോട് പറഞ്ഞത്. അതിന്റെ പ്രായോഗികതയെപറ്റി ചിന്തിക്കേണ്ടിയിരിക്കുന്നു.)<br />
3. പുതിതായി വരുന്നതും ഇപ്പോളുള്ളതുമായ നിവേശകരീതികള്‍ സൂക്ഷ്മമായ എന്‍‌കോഡിങ്ങ് ടെസ്റ്റിന്‍ വിധേയമാക്കണം. അതിന് ശേഷമേ പബ്ലിക് റിലീസ് പാടുള്ളൂ.</p>
]]></content:encoded>
			<wfw:commentRss>http://thottingal.in/blog/2007/10/11/%e0%b4%b5%e0%b4%b0%e0%b4%ae%e0%b5%8a%e0%b4%b4%e0%b4%bf%e0%b4%af%e0%b4%bf%e0%b4%b2%e0%b5%81%e0%b4%82-%e0%b4%ae%e0%b5%8a%e0%b4%b4%e0%b4%bf-%e0%b4%95%e0%b5%80%e0%b4%ae%e0%b4%be%e0%b4%a8%e0%b4%bf%e0%b4%b2/feed/</wfw:commentRss>
		<slash:comments>23</slash:comments>
		</item>
		<item>
		<title>Aspell Malayalam Spelling checker Version 0.01-1 Released</title>
		<link>http://thottingal.in/blog/2007/08/27/aspell-malayalam-spelling-checker-version-0-01-1-released/</link>
		<comments>http://thottingal.in/blog/2007/08/27/aspell-malayalam-spelling-checker-version-0-01-1-released/#comments</comments>
		<pubDate>Mon, 27 Aug 2007 18:32:00 +0000</pubDate>
		<dc:creator>Santhosh</dc:creator>
				<category><![CDATA[Misc]]></category>
		<category><![CDATA[aspell]]></category>
		<category><![CDATA[Malayalam]]></category>
		<category><![CDATA[SMC]]></category>
		<category><![CDATA[spelling checker]]></category>

		<guid isPermaLink="false">http://thottingal.in/blog/?p=21</guid>
		<description><![CDATA[മലയാളത്തിന് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ തിരുവോണ സമ്മാനം: ആസ്പെല്‍ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍(version 0.01-1) 1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്‍പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില്‍ ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര്‍ ഗ്നു ആസ്പെല്‍ എന്ന പ്രശസ്ത സോഫ്റ്റ്‌വെയര്‍ അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്. 1,37,348 മലയാളം വാക്കുകളും സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല്‍ ചില പിഴവുകള്‍ ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്‌വെയര്‍ ഉപയോഗിക്കുമ്പോള്‍ അത്തരം [...]]]></description>
			<content:encoded><![CDATA[<p>മലയാളത്തിന് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ തിരുവോണ സമ്മാനം: ആസ്പെല്‍ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍(version 0.01-1)</p>
<p>1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്‍പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില്‍ ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര്‍ ഗ്നു ആസ്പെല്‍ എന്ന പ്രശസ്ത സോഫ്റ്റ്‌വെയര്‍ അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്.<br />
1,37,348 മലയാളം വാക്കുകളും  സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല്‍ ചില പിഴവുകള്‍ ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്‌വെയര്‍ ഉപയോഗിക്കുമ്പോള്‍ അത്തരം തെറ്റുകള്‍ കാണുകയാണെങ്കില്‍ ദയവായി എന്നെ അറിയിക്കുക.</p>
<p>ഇത് ഇന്‍സ്റ്റാള്‍ ചെയ്യാന്‍ https://savannah.nongnu.org/task/download.php?file_id=13811 എന്നിടത്തു നിന്ന് ഡൗണ്‍ലോഡ് ചെയ്ത് extract ചെയ്യുക. അതിനു ശേഷം README ഫയലില്‍ വിവരിച്ചിരിക്കുന്ന പോലെ ചെയ്യുക.</p>
<p>മലയാളത്തിന്റെ പ്രത്യേകതയായ,ഒന്നിലധികം വാക്കുകള്‍ കൂടിച്ചേര്‍ന്ന്  പുതിയ വാക്കുകളുണ്ടാകുന്ന സവിശേഷത കൂടി കൈകാര്യം ചെയ്താല്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കര്‍ പൂര്‍ണ്ണമാവുകയുള്ളൂ. അല്ലെങ്കില്‍ പദസഞ്ചയത്തിന്റെ വലിപ്പം വളരെയധികമായിരിക്കും(ഇപ്പോള്‍ തന്നെ ഇന്ത്യയിലെ ഏറ്റവും വലിയ സ്പെല്ലിങ്ങ് ചെക്കര്‍ പദസഞ്ചയമാണിത്.). സന്ധി സമാസം നിയമങ്ങള്‍ ഈ ലക്കത്തില്‍ ഉള്‍ക്കൊള്ളിച്ചില്ലാത്തതിനാല്‍ മേല്‍പ്പറഞ്ഞ തരത്തിലുള്ള വാക്കുകള്‍പരിശോധിക്കാന്‍ ഈ സോഫ്റ്റ്‌വെയറിന് കഴിയില്ല. അതായത്  മഴക്കാലം, മേഘങ്ങള്‍, എല്ലാം, ഇരുണ്ട്, കൂടി എന്നിവയെല്ലാം പരിശോധിക്കാമെങ്കിലും &#8220;മഴക്കാലമേഘങ്ങളെല്ലാമിരുണ്ടുകൂടി&#8221; എന്ന വാക്ക് പരിശോധിക്കാന്‍ ഇതിന് കഴിഞ്ഞെന്നു വരില്ല. ഇത് അടുത്ത ലക്കത്തില്‍ ഉള്‍പ്പെടുത്താന്‍ ശ്രമിക്കുന്നുണ്ട്.</p>
<p>ഇത്രയും വലിയ പദസഞ്ചയം ശേഖരിക്കാന്‍ എന്നെ സഹായിച്ച ഹുസ്സൈന്‍ സാറിനോട് കടപ്പാട് അറിയിച്ചുകൊള്ളുന്നു. മലയാളം വിക്കിപീഡിയ, വിവിധ ബ്ലോഗുകള്‍ എന്നിവയില്‍ നിന്നും വാക്കുകള്‍ ശേഖരിച്ചിട്ടുണ്ട്.  സാങ്കേതിക സഹായങ്ങള്‍ക്ക്  കെവിന്‍ അറ്റ്കിന്‍സണ്‍(ആസ്പെല്‍ രചയിതാവ്), ഗോര മൊഹന്തി(ആസ്പെല്‍ ഹിന്ദി,ഒറിയ സ്പെല്‍ ചെക്കര്‍) എന്നിവരോട് നന്ദി രേഖപ്പെടുത്തുന്നു.</p>
<p>ഈ പദസഞ്ചയത്തിലില്ലാത്ത വാക്കുകള്‍ പരിശോധിക്കുമ്പോള്‍, നിങ്ങള്‍ക്കത് പദസഞ്ചയത്തിലേയ്ക്ക് കൂട്ടിച്ചേര്‍ക്കാം. ഇങ്ങനെ നിങ്ങള്‍ ചേര്‍ക്കുന്ന വാക്കുകള്‍ നിങ്ങളുടെ ഹോം ഡയറക്ടറിയില്‍ .aspell.ml.pws എന്ന hidden ഫയലില്‍ ശേഖരിക്കപ്പെടും. നിങ്ങള്‍ ചേര്‍ത്ത പുതിയ വാക്കുകള്‍ മറ്റുള്ളവര്‍ക്കും ഉപകാരപ്പെടണമെന്നാഗ്രഹമുണ്ടെങ്കില്‍ ആ ഫയല്‍ എനിക്കയച്ചു തരിക. പുതിയ ലക്കങ്ങളില്‍ ആ വാക്കുകള്‍ പ്രധാന പദസഞ്ചയത്തില്‍ ചേര്‍ക്കാം.</p>
<p>സഹായങ്ങള്‍ക്കോ സംശയങ്ങള്‍ക്കോ ഈ മെയിലിങ്ങ്  ലിസ്റ്റിലേക്കെഴുതുക.<br />
ഈ സോഫ്റ്റ്‌വെയറിനു വേണ്ടി ഉപയോഗിച്ച പദസഞ്ചയം മറ്റു ഭാഷാഗവേഷണങ്ങള്‍ക്കുമുപയോഗിക്കാവുന്നതാണ്. ആവശ്യമുള്ളവര്‍ ബന്ധപ്പെടുക.</p>
]]></content:encoded>
			<wfw:commentRss>http://thottingal.in/blog/2007/08/27/aspell-malayalam-spelling-checker-version-0-01-1-released/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Scim malayalam phonetic input method With Lookup table!!!</title>
		<link>http://thottingal.in/blog/2007/06/18/scim-malayalam-phonetic-input-method-with-lookup-table/</link>
		<comments>http://thottingal.in/blog/2007/06/18/scim-malayalam-phonetic-input-method-with-lookup-table/#comments</comments>
		<pubDate>Mon, 18 Jun 2007 15:54:00 +0000</pubDate>
		<dc:creator>Santhosh</dc:creator>
				<category><![CDATA[Misc]]></category>
		<category><![CDATA[hints]]></category>
		<category><![CDATA[Malayalam]]></category>
		<category><![CDATA[phonetic]]></category>
		<category><![CDATA[scim]]></category>
		<category><![CDATA[SMC]]></category>

		<guid isPermaLink="false">http://thottingal.in/blog/?p=16</guid>
		<description><![CDATA[Added a new feature to SCIM malayalam phonetic input method. It can give spelling suggestions while typing!!!. Cool right? See the below screenshot from my system. I am editing some text in GEDIT. For typing വിള, I have to type viLa according to the IM Scheme. But as every body does, I typed vila. Now [...]]]></description>
			<content:encoded><![CDATA[<p>Added a new feature to SCIM malayalam phonetic input method. It can give spelling suggestions while typing!!!. Cool right?<br />
See the below screenshot from my system. I am editing some text in GEDIT. For typing വിള, I have to type viLa according to the IM Scheme. But as every body does, I typed vila. Now hint menu comes with two suggestions. ള  and ല. I press arrow keys and it becomes വിള.<br />
<a href="http://pics.livejournal.com/santhoshtr/pic/00004eb1/"><img src="http://pics.livejournal.com/santhoshtr/pic/00004eb1/s320x240" width="320" height="186" border='0'/></a><br />
An extract from the documentation:<br />
മലയാളം ശബ്ദാത്മക നിവേശകരീതിക്ക് ഉപയോക്താവ് എഴുതിക്കൊണ്ടിരിക്കുമ്പോള്‍ സൂചനകള്‍ കൊടുക്കാന്‍ കഴിയും. ഇത് മലയാളം വളരെപ്പെട്ടെന്ന് തെറ്റ് കൂടാതെ എഴുതാന്‍ സഹായിക്കുന്നു. ചില്ല​ക്ഷരങ്ങള്‍, കൂട്ടക്ഷരങ്ങള്‍ എന്നിവ എഴുതുമ്പോള്‍ ഇത് വളരെ ഫലപ്രദമാണ്. മലയാളികളുടെ സവിശേഷമായ മംഗ്ളീഷ് ഉപയോഗത്തിന്റെ അടിസ്ഥാനത്തിലാണ് ഇതു രൂപകല്പനചെയ്തിരിക്കുന്നത്.</p>
<p>ഉദാഹരണത്തിന് അടിപൊളി എന്നെഴുതാന്‍ പലപ്പോഴും നാം ഉപയോഗിക്കുന്നത് adipoli എന്നാണ്. പക്ഷെ മലയാളം ശബ്ദാത്മക നിവേശകരീതിയിലതെഴുതുന്നത് atipoLi എന്നാണല്ലൊ?. ചിലര്‍​ക്കെങ്കിലുമുണ്ടാകുന്ന ഈ തടസ്സം ഒഴിവാക്കുന്നതിന് സൂചനാപ്പട്ടിക ഉപകരിക്കും. adipoli എന്നെഴുതിക്കൊണ്ടിരിക്കുമ്പോള്‍ di എന്നെഴുതുമ്പോള്‍ സൂചനാപ്പട്ടിക ദി എന്നും ടി എന്നും 2 സൂചനകള്‍ നല്‍കുന്നു. അതുപോലെ ളി എന്നതിനുവേണ്ടി Li ക്കുപകരം li എന്നെഴുതുമ്പോള്‍ പട്ടിക ലി എന്നും ളി എന്നും 2 സൂചനകള്‍ നല്കുന്നു.</p>
<p>ഇതിന്റെ വേറൊരു ഉപയോഗം പേരുകളുടെ കൂടെയുള്ള initials എഴുതുമ്പോള്‍ ആണ്. ഉദാഹരണത്തിന് ലീല പി കെ എന്നെഴുതാന്‍ ശരിക്കും ഉപയോഗിക്കേണ്ടത് leela pi ke എന്നാണ്. പക്ഷെ നാം leela p k എന്നു തന്നെ എഴുതാന്‍ ഇഷ്ടപ്പെടുന്നു. നാം P അല്ലെങ്കില്‍ p എന്നെഴുതുമ്പോള്‍ സൂചനാപ്പട്ടിക പി എന്നൊരു സൂചനകൂടി തരും!.</p>
<p>കെ എസ് ആര്‍ ടി സി എന്നെഴുതാന്‍ K S R T C തന്നെ ഉപയോഗിക്കണമെന്നുണ്ടോ? സൂചനാപ്പട്ടികയുടെ സഹായത്തോടെ നിങ്ങള്ക്ക് K S R T C എന്നു തന്നെ എഴുതാം. </p>
<p>&#8220;അടിപൊളി അല്ലേ?!!!&#8221;<br />
Now look at this<br />
<a href="http://pics.livejournal.com/santhoshtr/pic/000057a0/"><img src="http://pics.livejournal.com/santhoshtr/pic/000057a0" width="147" height="96" border='0'/></a><br />
Note: I decided not to use mozhi scheme as such for the better usability.But I tried to give some compatibility to that scheme by giving alternative patterns in some places.</p>
]]></content:encoded>
			<wfw:commentRss>http://thottingal.in/blog/2007/06/18/scim-malayalam-phonetic-input-method-with-lookup-table/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>Scim malayalam phonetic input method  : Key mapping</title>
		<link>http://thottingal.in/blog/2007/06/04/scim-malayalam-phonetic-input-method-key-mapping/</link>
		<comments>http://thottingal.in/blog/2007/06/04/scim-malayalam-phonetic-input-method-key-mapping/#comments</comments>
		<pubDate>Mon, 04 Jun 2007 17:50:00 +0000</pubDate>
		<dc:creator>Santhosh</dc:creator>
				<category><![CDATA[Misc]]></category>
		<category><![CDATA[Malayalam]]></category>
		<category><![CDATA[phonetic]]></category>
		<category><![CDATA[scim]]></category>
		<category><![CDATA[SMC]]></category>

		<guid isPermaLink="false">http://thottingal.in/blog/?p=15</guid>
		<description><![CDATA[This is the key mapping for scim malayalam phonetic keyboard സ്വരങ്ങള്‍ അ ആ ഇ ഈ ഉ ഊ ഋ a aa A i ii I ee u uu U oo RR ാ ി ീ ു ൂ ൃ എ ഏ ഐ ഒ ഓ ഔ അം അഃ e E ai ei o O au ou a~ aM ~ [...]]]></description>
			<content:encoded><![CDATA[<p><b>This is the key mapping for scim malayalam phonetic keyboard</b></p>
<table width="50%" cols="8" border="0"  cellpadding="2" >
<tbody>
<tr>
<td bgcolor="lightGray" colspan="8"><b><i>സ്വരങ്ങള്‍</i><b></td>
</tr>
<tr bgcolor="#91D9FF">
<td>അ</td>
<td>ആ</td>
<td>ഇ</td>
<td>ഈ</td>
<td>ഉ</td>
<td>ഊ</td>
<td>ഋ</td>
<td></td>
</tr>
<tr>
<td>a</td>
<td>aa A</td>
<td>i </td>
<td>ii I ee</td>
<td>u</td>
<td>uu U oo</td>
<td>RR</td>
<td></td>
</tr>
<tr bgcolor="#91D900">
<td></td>
<td>ാ</td>
<td>ി</td>
<td>ീ</td>
<td>ു</td>
<td>ൂ</td>
<td>ൃ</td>
<td></td>
</tr>
<tr bgcolor="#91D9FF">
<td>എ</td>
<td>ഏ</td>
<td>ഐ</td>
<td>ഒ</td>
<td>ഓ</td>
<td>ഔ</td>
<td>അം</td>
<td>അഃ</td>
</tr>
<tr>
<td>e</td>
<td>E</td>
<td>ai ei</td>
<td>o</td>
<td>O </td>
<td>au ou</td>
<td>a~ aM ~ </td>
<td>aH</td>
</tr>
<tr bgcolor="#91D900">
<td>െ</td>
<td>േ</td>
<td>ൈ</td>
<td>ൊ</td>
<td>ോ</td>
<td>ൌ</td>
<td>ം</td>
<td>ഃ</td>
</tr>
<tr>
<td bgcolor="lightGray" colspan="8"><b><i>വ്യഞ്ജനങ്ങള്‍<i></b></td>
</tr>
<tr bgcolor="#91D9FF">
<td>ക</td>
<td>ഖ</td>
<td>ഗ</td>
<td>ഘ</td>
<td>ങ</td>
<td></td>
<td>ങ്ക</td>
<td>ന്റെ</td>
</tr>
<tr >
<td>k</td>
<td>kh K</td>
<td>g</td>
<td>gh G</td>
<td>ng</td>
<td></td>
<td>nk</td>
<td>nte</td>
</tr>
<tr bgcolor="#91D9FF">
<td>ച</td>
<td>ഛ</td>
<td>ജ</td>
<td>ഝ</td>
<td>ഞ </td>
<td></td>
<td>റ്റ</td>
<td>ക്ഷ</td>
</tr>
<tr>
<td>ch</td>
<td>Ch</td>
<td>j</td>
<td>jh J</td>
<td>nj</td>
<td></td>
<td>TT</td>
<td>x</td>
</tr>
<tr bgcolor="#91D9FF">
<td>ട</td>
<td>ഠ</td>
<td>ഡ</td>
<td>ഢ</td>
<td>ണ</td>
<td></td>
<td>ക്യു</td>
<td>വൈ</td>
</tr>
<tr >
<td>t</td>
<td>T</td>
<td>D</td>
<td>Dh</td>
<td>N</td>
<td></td>
<td>q</td>
<td>Y</td>
</tr>
<tr bgcolor="#91D9FF">
<td>ത</td>
<td>ഥ</td>
<td>ദ</td>
<td>ധ</td>
<td>ന </td>
<td></td>
<td>ക്യൂ</td>
<td>ഞ്ച</td>
</tr>
<tr>
<td>th</td>
<td>thh</td>
<td>d</td>
<td>dh</td>
<td>n</td>
<td></td>
<td>Q</td>
<td>nch</td>
</tr>
<tr bgcolor="#91D9FF">
<td>പ</td>
<td>ഫ</td>
<td>ബ</td>
<td>ഭ</td>
<td>മ </td>
<td></td>
<td></td>
<td></td>
</tr>
<tr >
<td>p</td>
<td>f ph </td>
<td>b</td>
<td>bh B</td>
<td>m</td>
<td></td>
<td></td>
<td></td>
</tr>
<tr bgcolor="#91D9FF">
<td>യ</td>
<td>ര</td>
<td>ല</td>
<td>വ</td>
<td>ശ</td>
<td>ഷ</td>
<td>സ</td>
<td>ഹ</td>
</tr>
<tr>
<td>y</td>
<td>r</td>
<td>l</td>
<td>v w</td>
<td>S z</td>
<td>sh</td>
<td>s</td>
<td>h</td>
</tr>
<tr bgcolor="#91D9FF">
<td>ള</td>
<td>ഴ</td>
<td>റ </td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>L</td>
<td>zh</td>
<td>R</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td bgcolor="lightGray" colspan="8"><b><i>ചില്ലുകള്‍</i><b></td>
</tr>
<tr bgcolor="#91D9FF">
<td>ന്‍ </td>
<td>ല്‍ </td>
<td>ള്‍ </td>
<td>ര്‍ </td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>n~</td>
<td>l~</td>
<td>L~</td>
<td>r~ R~</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
</tbody>
</table>
<table>
<tbody>
<tr>
<td><b>ഉദാഹരണങ്ങള്‍</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>മലയാളം</td>
<td>malayaaLaM</td>
<td>malayAla~</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>സരിഗമപധനി</td>
<td>sarigamapadhani</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>പൊന്പീലി </td>
<td>ponpiili</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>മങ്ക</td>
<td>manka</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>കുടുംബം</td>
<td>kutu~ba~</td>
<td>kutu~baM</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>അവന്‍</td>
<td>avan~</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>ചക്ഷുശ്രവണഗളസ്ഥമാം </td>
<td>chaxuSravanagalasThamaa~ </td>
<td>chaxuSravanagalasThamaa~ </td>
<td>chakshuSravanagalasThamaa~ </td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>പ്രകൃതി</td>
<td>prakRthi</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>കൃഷ്ണന്‍</td>
<td>kRshNan~</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>പാലക്കാട് </td>
<td>paalakkaat</td>
<td>pAlakkAt</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>അക്ഷരം</td>
<td>axaraM</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
</tbody>
</table>
<p>Please post your comments in smc-discuss@googlegroups.com</p>
]]></content:encoded>
			<wfw:commentRss>http://thottingal.in/blog/2007/06/04/scim-malayalam-phonetic-input-method-key-mapping/feed/</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>Spell checker and Late night  coding..</title>
		<link>http://thottingal.in/blog/2007/05/21/spell-checker-and-late-night-coding/</link>
		<comments>http://thottingal.in/blog/2007/05/21/spell-checker-and-late-night-coding/#comments</comments>
		<pubDate>Mon, 21 May 2007 17:03:00 +0000</pubDate>
		<dc:creator>Santhosh</dc:creator>
				<category><![CDATA[Misc]]></category>
		<category><![CDATA[Malayalam]]></category>
		<category><![CDATA[SMC]]></category>
		<category><![CDATA[spell checker]]></category>

		<guid isPermaLink="false">http://thottingal.in/blog/?p=9</guid>
		<description><![CDATA[It was a wonderful week end. Myself and Benzi were working on the spell checker for Malayalam. In April we had done lot of research on this. We did the coding for the dictionary representation in the Binary Retrieval tree (TRIE). Saturday night we did the candidate list generation coding. It is a wonderful experience [...]]]></description>
			<content:encoded><![CDATA[<p>It was a wonderful week end. Myself and Benzi were working on the spell checker for Malayalam. In April we had done lot of research on this. We did the coding for the dictionary representation in the Binary Retrieval tree (TRIE). Saturday night we did the candidate list generation coding. It is a wonderful experience to code in the late night &#8211; one laptop and two persons to code!!!. Every thing worked fine. When we finished the coding, we realized that the application can be tuned to a universal(?) spell checker. So  sunday we tested it using a 3 lakh english words.. Worked fine!!. We compared the spelling options generated with aspell. Ours was giving more options since our dictionary is bigger than aspell&#8217;s.<br />
We want it to be called as bspell <img src='http://thottingal.in/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> . But qns&#8230;.<br />
Why bspell? what is the extra/less features that bspell has compared to aspell<br />
how to make it language independent?<br />
How to rank the spelling suggestions?<br />
How to make it work with Office suits/Editors?<br />
&#8230;<br />
Answer is &#8220;study Aspell&#8221;</p>
]]></content:encoded>
			<wfw:commentRss>http://thottingal.in/blog/2007/05/21/spell-checker-and-late-night-coding/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Swathanthra Malayalam Computing is participating in Google Summer of Code.</title>
		<link>http://thottingal.in/blog/2007/03/13/swathanthra-malayalam-computing-is-participating-in-google-summer-of-code/</link>
		<comments>http://thottingal.in/blog/2007/03/13/swathanthra-malayalam-computing-is-participating-in-google-summer-of-code/#comments</comments>
		<pubDate>Tue, 13 Mar 2007 22:25:00 +0000</pubDate>
		<dc:creator>Santhosh</dc:creator>
				<category><![CDATA[Misc]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[Malayalam]]></category>
		<category><![CDATA[SMC]]></category>
		<category><![CDATA[soc]]></category>

		<guid isPermaLink="false">http://thottingal.in/blog/?p=4</guid>
		<description><![CDATA[Swathanthra Malayalam Computing is participating in Google Summer of Code. More details at http://fci.wikia.com/wiki/SMC/SoC/2007 Excellent opportunity for Students in kerala&#8230;. Googel summer of Code:http://code.google.com/soc/]]></description>
			<content:encoded><![CDATA[<p>Swathanthra Malayalam Computing is participating in Google Summer of Code.<br />
More details at http://fci.wikia.com/wiki/SMC/SoC/2007<br />
Excellent opportunity for Students in kerala&#8230;.<br />
Googel summer of Code:http://code.google.com/soc/</p>
]]></content:encoded>
			<wfw:commentRss>http://thottingal.in/blog/2007/03/13/swathanthra-malayalam-computing-is-participating-in-google-summer-of-code/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
<!-- WP Super Cache is installed but broken. The path to wp-cache-phase1.php in wp-content/advanced-cache.php must be fixed! -->
