മലയാളം അകാരാദിക്രമം

സ്വതന്ത്ര പ്രവര്‍ത്തകസംവിധാനങ്ങള്‍ക്കായി തയ്യാറാക്കിയ glibc (Gnu C Library ) അകാരാദിക്രമത്തിന്റെ(Collation) വിശദവിവരങ്ങള്‍ താഴെക്കൊടുക്കുന്നു. അഭിപ്രായങ്ങള്‍ അറിയിക്കുക.

താഴെപ്പറയുന്ന നിയമങ്ങളുടെ അടിസ്ഥാനത്തിലാണു് മലയാളം അകാരാദിക്രമം തയ്യാറാക്കിയിരിക്കുന്നതു്.

  1. അക്ഷരമാലാക്രമം പിന്തുടരുക.
  2. അനുസ്വാരം മയുടെ സ്വരസാന്നിദ്ധ്യമില്ലാത്ത രൂപമായി പരിഗണിച്ചു് മയുടെ തൊട്ടുമുന്നില്‍ ക്രമീകരിയ്ക്കുക. പംപ < പമ്പ എന്ന പോലെ .
  3. ഓരോ വ്യഞ്ജനവും അതിന്റെ സ്വരസാന്നിദ്ധ്യമില്ലാത്ത രൂപത്തിന്റെ കൂടെ അകാരം ഉള്ള രൂപമായി കണക്കാക്കുക. അതായതു് ത എന്നതു് ത് എന്ന സ്വരസാന്നിദ്ധ്യമില്ലാത്ത വ്യഞ്ജനത്തിന്റെ കൂടെ അകാരം ഉള്ള രൂപമാണു്. ത = ത് + അ . താ = ത് + ആ എന്നിങ്ങനെ. ഇതില്‍ നിന്നും ത് < ത എന്നു വ്യക്തമാകുന്നു. അതുകൊണ്ടു് ത എന്നതു് ത് കഴിഞ്ഞേ വരൂ. അത് < അതല്ല < അതാണു്. അതേസമയം അത്ഭുതം > അതഭ. കൂട്ടക്ഷരങ്ങള്‍ അതിലെ ആദ്യത്തെ അക്ഷരത്തില്‍ സ്വരചിഹങ്ങള്‍ ചേര്‍ന്ന രൂപങ്ങളെല്ലാം കഴിഞ്ഞേ വരൂ.
    ത്ഭ = ത + ് + ഭ + ് + അ
    തഭ = ത + ് + അ + ഭ + ് + അ
    ആദ്യത്തെ രണ്ടക്ഷരങ്ങള്‍ തുല്യമായതുകൊണ്ടു്, ഇതിനെ നമുക്കു്
    ഭ + ് + അ
    അ + ഭ + ് + അ
    എന്നെഴുതാം. ഭ > അ ആണല്ലോ. അതുകൊണ്ടു് അത്ഭുതം എന്നതു് അതഭ എന്നതിനു ശേഷമേ വരൂ.
  4. ചില്ലക്ഷരങ്ങള്‍ അതാതിന്റെ വ്യഞ്ജങ്ങളുടെ സ്വരമില്ലാത്ത രൂപങ്ങളായതിനാല്‍ മേല്‍പറഞ്ഞപോലെ ക്രമീകരിക്കപ്പെടും. അതായതു് ര്‍ < ര . ഉദാഹരണം:
    അവര്

    അവര്‍

    അവര

  5. സംവൃതോകാരം ഉകാരത്തിനു തൊട്ടു പിന്നില്‍ വരും. അതു് < അതു
  6. മലയാളം അക്കങ്ങള്‍ അവയുടെ അറബി ലിപികളുടെ കൂടെ തന്നെ വരും.
    1

    १०

    2

    3

    ३०
    എന്ന രീതിയില്‍

  7. കൌ, കൗ എന്നിവ തുല്യങ്ങളായി കണക്കാക്കപ്പെടും.
    കൗ

    കൌ
    എന്ന രീതിയില്‍

  8. ഒ, ഓ, ഔ എന്നിവയുടെ സ്വരചിഹനങ്ങള്‍ യഥാക്രമം ൊ , ോ , ൌ എന്നോ െ+ ാ , േ+ ാ , െ+ ൗ എന്നോ എഴുതിയാലും തുല്യമായി കണക്കാക്കും(Canonical Equivalence)

ഈ വിഷയത്തെപ്പറ്റി നടന്ന ചര്‍ച്ചയും കൂടുതല്‍ വിവരങ്ങളും ഇവിടെ . പ്രത്യേകിച്ചു പ്രശ്നങ്ങളൊന്നുമില്ലെങ്കില്‍ യൂണിക്കോഡ് കൊളേഷന്‍ തിരുത്തി ശരിയാക്കാന്‍ ഇതു് അടിസ്ഥാനമാക്കാം.

5 thoughts on “മലയാളം അകാരാദിക്രമം”

  1. ര് ര്‍ എന്നിവ തുല്യമായാണോ കണക്കാക്കുന്നതു്?

  2. ര്‍ = ര + ് + zwj ആണല്ലോ, അതിലെ zwj യുടെ പ്രൈമറി കോളേഷന്‍ വെയ്റ്റ് പൂജ്യമാണു്(zwnj യുടെയും).അതുകൊണ്ടു് അതു് ര് ന്റെ വെയിറ്റിനു തുല്യമാകും. പക്ഷേ ര് കഴിഞ്ഞേ ര്‍ വരൂ. താഴെപ്പറയുന്ന സോര്‍ട്ടിങ്ങ് ശ്രദ്ധിക്കുമല്ലോ.
    തമിഴ്നാട്
    തമിഴ്‌നാട്
    നന്മ
    നന്‍മ
    വില്പന
    വില്‍പന
    വില്‌പന
    ഇവിടെ കൊടുത്തിരിക്കുന്ന glibc യുടെ ടേബിള്‍ നോക്കുക.

  3. മലയാളവുമായി മാത്രം ബന്ധപ്പെട്ടതല്ല ഈ ചൊദ്യം

    അക്കങ്ങളുടെ സോര്‍‌ട്ടിങ്ങ് എന്തു കൊണ്ട്

    1

    10

    2

    20

    …..

    എന്നിങ്ങനെ ആകുന്നു. എന്തു കൊണ്ടത്

    1

    2

    3

    10

    ….

    20

    എന്നിങ്ങനെ ആകുന്നില്ല?

    ഇപ്പോഴത്തെ സോര്‍‌ട്ടിങ്ങില്‍ ഉപയോഗിച്ചിരിക്കുന്ന ലോജിക്ക് എന്താണു്?

  4. ഷിജു,

    ഇതു് മലയാളത്തിന്‍റെ മാത്രം പ്രശ്നമല്ല. വിന്‍ഡോസില്‍ ഈ ‘കുഴപ്പം’ പലേടത്തും കാണാം.

    ഇതും ഇതും വായിച്ചു നോക്കൂ.

  5. This sorting rules are part of GNU C library now. Will be available in GNU/Linux distros soon. Fedora 11 will be the first version with Malayalam sorting.

Leave a Reply

Your email address will not be published. Required fields are marked *