Natural language question answering in Wikipedia - an exploration - Part2

A few days back I posted an experiment on Natural language querying for wikipedia by generating questions and answers. I was suggesting that building such a collection of question and answers can help natural language answering. One missing piece was actually suggesting an answer for a new question that is not part of QA set for article. As a continuation of that experiment, I was exploring various options for answering questions. [Read More]

Natural language question answering in Wikipedia - an exploration

In this blog post I explain the prospects of providing questions and answers as an additional content format in wikipedia and a human-in-the-loop approach for that with a prototype. Introduction Wikipedia is a hub for curiosity, with people visiting the site in search of answers to their questions. However, they typically arrive at Wikipedia via intermediaries such as search engines, which direct them to the relevant article. While Wikipedia’s keyword-based search function can be helpful, it may not be sufficient for addressing more complex natural language queries. [Read More]

Introducing Nupuram, new Malayalam typeface

I am happy to introduce Nupuram, a new Malayalam typeface that I have been designing and developing for several months. The typeface is not ready for a stable release, but pre-release versions are available for early testing. Nupuram is a superfamily typeface. Nupuram variable font Taking full advantage of variable font technology, Nupuram offers an unprecedented level of flexibility, all from a single font file. Nupuram has 4 variation axes: Weight, Width, Slant and Softness. [Read More]

Gayathri 1.20 released

A new version of Gayathri typeface is available now. Version 1.20 comes with a few bugfixes and glyph additions. New version is available at SMC website for preview and download. Changes Fix the size issue of fullstop and comma Add 0D7B+0D4D+0D31 based ന്റ Improve kerning for latin Add 22 latin glyphs Fix spacing issues for quote signs Flatten the nested components Update build dependencies and CI The latest version is not yet available at Google fonts. [Read More]

ലിപിപരിഷ്കരണം 2022

മലയാളലിപി പരിഷ്കരിക്കാനായി സർക്കാർ രൂപീകരിച്ച വിദഗ്ദ്ധസമിതിയുടെ നിർദ്ദേശങ്ങൾ അംഗീകരിച്ചെന്നും ഉ ചിഹ്നങ്ങൾ മാത്രം വിട്ടെഴുതുന്ന പഴയലിപി സമിതി നിർദ്ദേശിച്ചുവെന്നുമുള്ള വാർത്തകളുടെ അടിസ്ഥാനത്തിൽ ചില പ്രതികരണങ്ങളും ചിന്തകളും പങ്കുവെയ്ക്കുന്നു. ഫോണ്ടുകളും ലിപിപരിഷ്കരണവും നിലവിൽ പേന/ബ്രഷ് കൊണ്ടല്ലാത്ത എല്ലാത്തരം അച്ചടിയും അക്ഷരങ്ങളുടെ ചിത്രീകരണവും നടക്കുന്നത് ഫോണ്ടുകൾ എന്ന സോഫ്റ്റ്‌‌വെയർ വഴിയാണ്. അതുകൊണ്ടുതന്നെ ഒരു ഭാഷയിലെ ലിപിരൂപങ്ങളെക്കുറിച്ചുള്ള ഏതൊരുമാറ്റത്തിനും ഇന്ന് ഒരു സോഫ്റ്റ്‌വെയർ റിലീസ് സൈക്കിളിനോട് സാമ്യമുണ്ട്. പക്ഷേ പൂർണ്ണാർത്ഥത്തിൽ ഒരു സോഫ്റ്റ്‌വെയർ അതിന്റെ ഫീച്ചറുകളിൽ മാറ്റം വരുത്തി പുതിയ പതിപ്പായി ഇറക്കുന്നപോലെയല്ല ഫോണ്ടുകളുടെ റിലീസ്. ഫോണ്ടുകളിൽ ടെക്നോളജിയുടെ ഒപ്പം തന്നെ അക്ഷരങ്ങളുടെ കലാപരമായ ചിത്രീകരണം കൂടി ഉള്ളതുകൊണ്ട് ഒരിക്കൽ ഒരു ഫോണ്ട് പുറത്തുവന്നാൽ അതിന്റെ രൂപകല്പനയും ഘടനയും മാറ്റിപ്പണിത് പുറത്തിറക്കാറില്ല. [Read More]

ബഹുവചനമില്ലാത്ത ദേശാഭിമാനി

ഈയിടെയായി ദേശാഭിമാനി പത്രത്തിൽ ബഹുവചനങ്ങൾ, പ്രത്യേകിച്ചും തലക്കെട്ടുകളിൽ ഒഴിവാക്കുന്നത് ശ്രദ്ധയിൽ പെട്ടു. ഇത് ഒരു എഡിറ്റോറിയൽ തീരുമാനമാണോയെന്നറിയില്ല. തലക്കെട്ടിൽ ബഹുവചനരൂപമില്ലെങ്കിലും വാർത്തയിൽ അവയുണ്ടുതാനും. ഇത് എല്ലായിടത്തും ഒരുപോലെ കാണുന്നുമില്ല. വെറുമൊരു കൗതുകത്തിനു കുറച്ചു ഉദാഹരണങ്ങൾ കൊടുക്കുന്നു.

Hyphenation of Indian languages

The latest version of Firefox - Firefox 97 - supports hyphenation of Indian languages. I had filed a bug report to include the hyphenation patterns I prepared in Firefox. That 6 year old bug report is now resolved. Hyphenation is the process inserting hyphens in between the syllables of a word so that when the text is justified, maximum space is utilized. Following languages are supported: Assamese Bengali Gujarati Hindi Kannada Malayalam Marati Odia Panjabi Tamil Telugu I had written several articles about how to do hyphenation for Indian languages in various applications. [Read More]

Using Manjari as new orthography Malayalam font

Manjari is a traditional orthography font for Malayalam. It has large set of ligatures, vowel signs like /u/ get attached to its corresponding consonants to form ligatures. But, sometimes there are requirements to illustrate new orthography Malayalam content in Manjari. Recently, Manjari was used to typeset an academic book related to Malayalam script and it was required to show some content in new orthography with detached vowel signs and detached reph signs. [Read More]

One million Wikipedia articles by translation

I am happy to share a news from my work at Wikimedia Foundation. The Wikipedia article translation system, known as Content Translation reached a milestone of creating one million articles. Since 2015, this is my major project at WMF and I am lead engineer for the project. The Content Translation system helps Wikipedia editors to quickly translate and publish articles from one language wiki to another. This way, the knowledge gap between different languages are reduced. [Read More]

New version of Malayalam morphology analyser

In the previous blog post I explained my efforts to modernize SFST. Since I published SFST python binding and modernized to make it compile in all operating systems, next step was to drop HFST dependency of mlmorph and use the new version of SFST 1.5.0. mlmorph 1.3.0 has no dependency on HFST and all installation problems in different operating systems and python versions are solved now. Latest version is also available in pypi. [Read More]
mlmorph  fst