sentencex: Empowering NLP with Multilingual Sentence Extraction

Sentence segmentation is a fundamental process in natural language processing. It involves breaking down a given text into individual sentences, a task that finds applications in various contexts. Whether you need to split a paragraph into sentences for further analysis or present sentence boundaries in a user-friendly frontend application, sentence segmentation is crucial. At first glance, identifying sentence boundaries might seem straightforward – just look for a period or full stop. [Read More]
NLP 

Natural language question answering in Wikipedia - an exploration - Part 4

I wrote about the exploration on Natural language querying for wikipedia in previous three blog posts. In Part 1, I was suggesting that building such a collection of question and answers can help natural language answering. One missing piece was actually suggesting an answer for a new question that is not part of QA set for article. In Part 2, I tried using distilbert-base-cased-distilled-squad with ONNX optimization to answer the questions. [Read More]

Natural language question answering in Wikipedia - an exploration - Part 3

I wrote about the exploration on Natural language querying for wikipedia in previous two blog posts. In Part 1, I was suggesting that building such a collection of question and answers can help natural language answering. One missing piece was actually suggesting an answer for a new question that is not part of QA set for article. In Part 2, I tried using distilbert-base-cased-distilled-squad with ONNX optimization to answer the questions. [Read More]

Natural language question answering in Wikipedia - an exploration - Part2

A few days back I posted an experiment on Natural language querying for wikipedia by generating questions and answers. I was suggesting that building such a collection of question and answers can help natural language answering. One missing piece was actually suggesting an answer for a new question that is not part of QA set for article. As a continuation of that experiment, I was exploring various options for answering questions. [Read More]

Natural language question answering in Wikipedia - an exploration

In this blog post I explain the prospects of providing questions and answers as an additional content format in wikipedia and a human-in-the-loop approach for that with a prototype. Introduction Wikipedia is a hub for curiosity, with people visiting the site in search of answers to their questions. However, they typically arrive at Wikipedia via intermediaries such as search engines, which direct them to the relevant article. While Wikipedia’s keyword-based search function can be helpful, it may not be sufficient for addressing more complex natural language queries. [Read More]

Introducing Nupuram, new Malayalam typeface

I am happy to introduce Nupuram, a new Malayalam typeface that I have been designing and developing for several months. The typeface is not ready for a stable release, but pre-release versions are available for early testing. Nupuram is a superfamily typeface. Nupuram variable font Taking full advantage of variable font technology, Nupuram offers an unprecedented level of flexibility, all from a single font file. Nupuram has 4 variation axes: Weight, Width, Slant and Softness. [Read More]

Gayathri 1.20 released

A new version of Gayathri typeface is available now. Version 1.20 comes with a few bugfixes and glyph additions. New version is available at SMC website for preview and download. Changes Fix the size issue of fullstop and comma Add 0D7B+0D4D+0D31 based ന്റ Improve kerning for latin Add 22 latin glyphs Fix spacing issues for quote signs Flatten the nested components Update build dependencies and CI The latest version is not yet available at Google fonts. [Read More]

ലിപിപരിഷ്കരണം 2022

മലയാളലിപി പരിഷ്കരിക്കാനായി സർക്കാർ രൂപീകരിച്ച വിദഗ്ദ്ധസമിതിയുടെ നിർദ്ദേശങ്ങൾ അംഗീകരിച്ചെന്നും ഉ ചിഹ്നങ്ങൾ മാത്രം വിട്ടെഴുതുന്ന പഴയലിപി സമിതി നിർദ്ദേശിച്ചുവെന്നുമുള്ള വാർത്തകളുടെ അടിസ്ഥാനത്തിൽ ചില പ്രതികരണങ്ങളും ചിന്തകളും പങ്കുവെയ്ക്കുന്നു. ഫോണ്ടുകളും ലിപിപരിഷ്കരണവും നിലവിൽ പേന/ബ്രഷ് കൊണ്ടല്ലാത്ത എല്ലാത്തരം അച്ചടിയും അക്ഷരങ്ങളുടെ ചിത്രീകരണവും നടക്കുന്നത് ഫോണ്ടുകൾ എന്ന സോഫ്റ്റ്‌‌വെയർ വഴിയാണ്. അതുകൊണ്ടുതന്നെ ഒരു ഭാഷയിലെ ലിപിരൂപങ്ങളെക്കുറിച്ചുള്ള ഏതൊരുമാറ്റത്തിനും ഇന്ന് ഒരു സോഫ്റ്റ്‌വെയർ റിലീസ് സൈക്കിളിനോട് സാമ്യമുണ്ട്. പക്ഷേ പൂർണ്ണാർത്ഥത്തിൽ ഒരു സോഫ്റ്റ്‌വെയർ അതിന്റെ ഫീച്ചറുകളിൽ മാറ്റം വരുത്തി പുതിയ പതിപ്പായി ഇറക്കുന്നപോലെയല്ല ഫോണ്ടുകളുടെ റിലീസ്. ഫോണ്ടുകളിൽ ടെക്നോളജിയുടെ ഒപ്പം തന്നെ അക്ഷരങ്ങളുടെ കലാപരമായ ചിത്രീകരണം കൂടി ഉള്ളതുകൊണ്ട് ഒരിക്കൽ ഒരു ഫോണ്ട് പുറത്തുവന്നാൽ അതിന്റെ രൂപകല്പനയും ഘടനയും മാറ്റിപ്പണിത് പുറത്തിറക്കാറില്ല. [Read More]

ബഹുവചനമില്ലാത്ത ദേശാഭിമാനി

ഈയിടെയായി ദേശാഭിമാനി പത്രത്തിൽ ബഹുവചനങ്ങൾ, പ്രത്യേകിച്ചും തലക്കെട്ടുകളിൽ ഒഴിവാക്കുന്നത് ശ്രദ്ധയിൽ പെട്ടു. ഇത് ഒരു എഡിറ്റോറിയൽ തീരുമാനമാണോയെന്നറിയില്ല. തലക്കെട്ടിൽ ബഹുവചനരൂപമില്ലെങ്കിലും വാർത്തയിൽ അവയുണ്ടുതാനും. ഇത് എല്ലായിടത്തും ഒരുപോലെ കാണുന്നുമില്ല. വെറുമൊരു കൗതുകത്തിനു കുറച്ചു ഉദാഹരണങ്ങൾ കൊടുക്കുന്നു.

Hyphenation of Indian languages

The latest version of Firefox - Firefox 97 - supports hyphenation of Indian languages. I had filed a bug report to include the hyphenation patterns I prepared in Firefox. That 6 year old bug report is now resolved. Hyphenation is the process inserting hyphens in between the syllables of a word so that when the text is justified, maximum space is utilized. Following languages are supported: Assamese Bengali Gujarati Hindi Kannada Malayalam Marati Odia Panjabi Tamil Telugu I had written several articles about how to do hyphenation for Indian languages in various applications. [Read More]