Natural language question answering in Wikipedia - an exploration - Part 3

I wrote about the exploration on Natural language querying for wikipedia in previous two blog posts. In Part 1, I was suggesting that building such a collection of question and answers can help natural language answering. One missing piece was actually suggesting an answer for a new question that is not part of QA set for article. In Part 2, I tried using distilbert-base-cased-distilled-squad with ONNX optimization to answer the questions. [Read More]

Natural language question answering in Wikipedia - an exploration - Part2

A few days back I posted an experiment on Natural language querying for wikipedia by generating questions and answers. I was suggesting that building such a collection of question and answers can help natural language answering. One missing piece was actually suggesting an answer for a new question that is not part of QA set for article. As a continuation of that experiment, I was exploring various options for answering questions. [Read More]

Natural language question answering in Wikipedia - an exploration

In this blog post I explain the prospects of providing questions and answers as an additional content format in wikipedia and a human-in-the-loop approach for that with a prototype. Introduction Wikipedia is a hub for curiosity, with people visiting the site in search of answers to their questions. However, they typically arrive at Wikipedia via intermediaries such as search engines, which direct them to the relevant article. While Wikipedia’s keyword-based search function can be helpful, it may not be sufficient for addressing more complex natural language queries. [Read More]

Introducing Nupuram, new Malayalam typeface

I am happy to introduce Nupuram, a new Malayalam typeface that I have been designing and developing for several months. The typeface is not ready for a stable release, but pre-release versions are available for early testing. Nupuram is a superfamily typeface. Nupuram variable font Taking full advantage of variable font technology, Nupuram offers an unprecedented level of flexibility, all from a single font file. Nupuram has 4 variation axes: Weight, Width, Slant and Softness. [Read More]

Gayathri 1.20 released

A new version of Gayathri typeface is available now. Version 1.20 comes with a few bugfixes and glyph additions. New version is available at SMC website for preview and download. Changes Fix the size issue of fullstop and comma Add 0D7B+0D4D+0D31 based ന്റ Improve kerning for latin Add 22 latin glyphs Fix spacing issues for quote signs Flatten the nested components Update build dependencies and CI The latest version is not yet available at Google fonts. [Read More]

ലിപിപരിഷ്കരണം 2022

മലയാളലിപി പരിഷ്കരിക്കാനായി സർക്കാർ രൂപീകരിച്ച വിദഗ്ദ്ധസമിതിയുടെ നിർദ്ദേശങ്ങൾ അംഗീകരിച്ചെന്നും ഉ ചിഹ്നങ്ങൾ മാത്രം വിട്ടെഴുതുന്ന പഴയലിപി സമിതി നിർദ്ദേശിച്ചുവെന്നുമുള്ള വാർത്തകളുടെ അടിസ്ഥാനത്തിൽ ചില പ്രതികരണങ്ങളും ചിന്തകളും പങ്കുവെയ്ക്കുന്നു. ഫോണ്ടുകളും ലിപിപരിഷ്കരണവും നിലവിൽ പേന/ബ്രഷ് കൊണ്ടല്ലാത്ത എല്ലാത്തരം അച്ചടിയും അക്ഷരങ്ങളുടെ ചിത്രീകരണവും നടക്കുന്നത് ഫോണ്ടുകൾ എന്ന സോഫ്റ്റ്‌‌വെയർ വഴിയാണ്. അതുകൊണ്ടുതന്നെ ഒരു ഭാഷയിലെ ലിപിരൂപങ്ങളെക്കുറിച്ചുള്ള ഏതൊരുമാറ്റത്തിനും ഇന്ന് ഒരു സോഫ്റ്റ്‌വെയർ റിലീസ് സൈക്കിളിനോട് സാമ്യമുണ്ട്. പക്ഷേ പൂർണ്ണാർത്ഥത്തിൽ ഒരു സോഫ്റ്റ്‌വെയർ അതിന്റെ ഫീച്ചറുകളിൽ മാറ്റം വരുത്തി പുതിയ പതിപ്പായി ഇറക്കുന്നപോലെയല്ല ഫോണ്ടുകളുടെ റിലീസ്. ഫോണ്ടുകളിൽ ടെക്നോളജിയുടെ ഒപ്പം തന്നെ അക്ഷരങ്ങളുടെ കലാപരമായ ചിത്രീകരണം കൂടി ഉള്ളതുകൊണ്ട് ഒരിക്കൽ ഒരു ഫോണ്ട് പുറത്തുവന്നാൽ അതിന്റെ രൂപകല്പനയും ഘടനയും മാറ്റിപ്പണിത് പുറത്തിറക്കാറില്ല. [Read More]

ബഹുവചനമില്ലാത്ത ദേശാഭിമാനി

ഈയിടെയായി ദേശാഭിമാനി പത്രത്തിൽ ബഹുവചനങ്ങൾ, പ്രത്യേകിച്ചും തലക്കെട്ടുകളിൽ ഒഴിവാക്കുന്നത് ശ്രദ്ധയിൽ പെട്ടു. ഇത് ഒരു എഡിറ്റോറിയൽ തീരുമാനമാണോയെന്നറിയില്ല. തലക്കെട്ടിൽ ബഹുവചനരൂപമില്ലെങ്കിലും വാർത്തയിൽ അവയുണ്ടുതാനും. ഇത് എല്ലായിടത്തും ഒരുപോലെ കാണുന്നുമില്ല. വെറുമൊരു കൗതുകത്തിനു കുറച്ചു ഉദാഹരണങ്ങൾ കൊടുക്കുന്നു.

Hyphenation of Indian languages

The latest version of Firefox - Firefox 97 - supports hyphenation of Indian languages. I had filed a bug report to include the hyphenation patterns I prepared in Firefox. That 6 year old bug report is now resolved. Hyphenation is the process inserting hyphens in between the syllables of a word so that when the text is justified, maximum space is utilized. Following languages are supported: Assamese Bengali Gujarati Hindi Kannada Malayalam Marati Odia Panjabi Tamil Telugu I had written several articles about how to do hyphenation for Indian languages in various applications. [Read More]

Using Manjari as new orthography Malayalam font

Manjari is a traditional orthography font for Malayalam. It has large set of ligatures, vowel signs like /u/ get attached to its corresponding consonants to form ligatures. But, sometimes there are requirements to illustrate new orthography Malayalam content in Manjari. Recently, Manjari was used to typeset an academic book related to Malayalam script and it was required to show some content in new orthography with detached vowel signs and detached reph signs. [Read More]

One million Wikipedia articles by translation

I am happy to share a news from my work at Wikimedia Foundation. The Wikipedia article translation system, known as Content Translation reached a milestone of creating one million articles. Since 2015, this is my major project at WMF and I am lead engineer for the project. The Content Translation system helps Wikipedia editors to quickly translate and publish articles from one language wiki to another. This way, the knowledge gap between different languages are reduced. [Read More]