“பார்வை மாற்று திறனாளி”களுடன் ஒரு உரையாடல்

2019 அக்டோபர் மாதம் சென்னை பல்கலைக்கழகத்தில் இயங்கிவரும் ஒரு வாசக அமைப்பின் நிகழ்ச்சிக்குச் கணியம் அறக்கட்டளை சார்பாக, சிறப்பு விருந்தினராக அழைக்கபட்டிருந்தேன். அழைப்பின்போது ஒரு தகவலும் சொல்லபட்டது, பங்கேற்பவர்கள் பார்வை மாற்று திறனாளிகள் என்று.

எப்படி பேசுவது, என்ன பேசுவது, வார்த்தைகளைப் பயன்படுத்தும்போது கவனமாக இருக்க வேண்டும் என்று பல விதிகளை எனக்கு நானே உருவாக்கிக்கொண்டு சென்றிருந்தேன். ஆனால் எல்லாம் வீண் என்பது நிகழ்சி நடக்கும் இடத்தை அடைந்ததும் தெரிந்து கொண்டேன். எதுவும் அசாதாரணமாக எனக்குப் படவில்லை. எல்லா நிகச்சிகளைப்போலவே அந்த நிகழ்ச்சியும் பார்வை மாற்று திறனாளிகளால் ஏற்பாடு செய்யபட்டுக்கொண்டிருந்தது.

ஒரு நல்ல பாடம் கற்றுக்கொண்ட நாள் அது. விவாதம் 2மணிநேரம் நீண்டது. இன்னும் விவாதித்து இருக்கலாம். ஆனால் அலுவலக பணிச்சுமை முடித்துவிட்டு செல்லவேண்டியதாயிற்று.

அன்றைய தினம் தான் தெரிந்து கொண்டேன், இதுவரைக்கும் பார்வைமாற்று திறனாளிகளுக்கென்று OCR செய்ய இலவச செயலிகள் இல்லை. அதிகபட்சமாக 5000 வரை கட்டணம் செலுத்த வேண்டும். சில இலவச செயலிகள் இருந்தும், அவை ஒரு குறிப்பிட்ட அளவே இலவசமாகப் பயன்படுத்த முடியும் என்பதும் தெரியவந்தது. இதற்கான ஒரு மாற்றாகப் புத்தகங்கள் குரல் வடிவில் கிடைக்கும். இதைத்தவிர இதுவரை அரசு சார்பில் எந்த ஒரு ஏற்படும் செய்யபடவும் இல்லை என்பதை அவர்கள் தெரிவித்தனர்.

IMG_20191005_115520

3வருடங்களுக்கு முன்னர் ஒரு பார்வை மாற்று திறனாளி தோழர் ஒருவர் #FreeTamilEbooks செயலிகுறித்து என்னுடன் பேசுகையில், அவர்களுடைய தேவைகள்குறித்து சொன்னார். தமிழ் எழுத்துக்களைப் படிக்கும் சேவைகளின் தரம் குறித்தும் அண்ணா நூற்றாண்டு நினைவு நூலகம் சென்று அறிந்து கொண்டேன். அதுவரை எனது செயலிகள் எதுவும், குறைந்தபட்சம் பார்வை மாற்று திறனாளிகள் பயன்படுத்தும் வகையில் கூட நான் உருவாக்கவில்லை.

அன்றிலிருந்து என்னைத் துரத்தும் ஒரு கேள்வியாகவும் அது மாறியது. விழுப்புரம் கட்டற்ற மென்பொருள் அமைப்பின் FreeTamilEbooks செயலி வெளியீட்டு விழாவிலும் இதைப் பகிர்ந்தேன். விரைவில் OCR அல்லது TTS சார்ந்து ஒரு செயலியை உருவாக்குவோம் என்று. விடை தேடி அலைந்து போது ஒரு மைல்கல்…

#Tesseract என்ற திறந்த மூல எழுத்துணரி எஞ்சின் மூலம், தமிழ் எழுத்துக்களை OCR செய்ய ஆன்ட்ராய்டு இயங்குதளத்தில் ஒரு வழி கிடைத்துள்ளது. ஆனால் இன்னும் முழுமையடையவில்லை. Tesseract-ஐ பயிற்றுவிக்க ஏராளமான Dataset தேவைபடுகிறது. அதாவது வேவ்வேறு எழுத்து வடிவங்கள்(Fonts) அல்லது கையாள் எழுதப்பட்ட எழுத்துக்களின் படங்கள் தேவையாகிறது.

இந்தத் தகவலைத் திரட்டினால், தரமான கூகிளுக்கு இணையான ஒரு OCR எஞ்சினை திறந்த மூல பயன்பாட்டில் கட்டமைக்க முடியும்… தற்பொழுது #கணியம் அறக்கட்டளையிலிருந்து, இந்தத் தகவலைத் திரட்டக் “அனைவரும் பங்களிக்கும்” வகையில் கையெழுத்து இயக்கம் ஒன்றை நடத்தி வருகிறோம். இது சாத்தியப்படும் பட்சத்தில், திறந்த மூல பயன்பாட்டில் தமிழுக்கு ஒரு எழுத்துணரி(OCR) கிடைக்கும்.

தினமொரு தமிழ்_சொல்… டிவிட்டர் பாட்(Bot)

கணியம் அறக்கட்டளையின் Project Ideas-ல் Kondasamy Jayaraman என்பவரால் முன்மொழியப்பட்ட கருத்துதான், தினம் ஒரு தமிழ் சொல் – Twitter bot தமிழ் சொற்களை Twitter, Mastodon, Facebook போன்ற சமூக வலைதளங்களில் தினமும் தமிழ் சொற்களையும் உடன் அதன் பொருளையும் சேர்த்து, பதிவிடலாம் இதன் மூலம் இதுவரை நமக்கு அறிமுகமாகாத, பழக்கத்திலிருந்து மற(றை)ந்து சொற்களைத் தெரியப்படுத்தும் ஒரு முயற்சி.

Screenshot 2020-06-21 at 4.15.06 PM

பயன்படுத்தியுள்ள தொழில்நுட்பங்கள்:

  1. Python நிரலாக்க மொழி
  2. Back4App
  3. Heroku

விக்சனரி-யில் இருந்து சொற்களை அதன் பொருளுடன் எடுத்து, அதை Back4App-ல் தரவுத்தளத்தை(Database) உருவாக்கிச் சேகரித்துவைத்துள்ளேன்.

தினமும் மூன்று முறை(8 மணி நேர இடைவெளியில்) Heroku, இந்தப் பைத்தான் நிரலை இயக்கி, சேகரிக்கப்பட்ட சொற்களிலிருந்து ஒரு சொல்லை எடுத்து, டிவிட்டரில் பதிவிடும்.

தற்பொழுது, டிவிட்டரில் பதிவிடும் படியாகத்தான் எழுதியுள்ளேன். இன்னும் Mastodon தேவையெனில் Facebook-லும் பதிவிடும் படியாக இந்த நிரலை மேம்படுத்த வேண்டும்.

GitHub Source: https://github.com/KaniyamFoundation/DailyOneTamilWord

வாங்க தெரிஞ்சிக்கலாம் : மொசில்லா தமிழ் மொழியாக்கத்தில் பங்களிப்பது எப்படி? [காணொளி]

மொசில்லா என்ற திறந்த மூல மென்பொருள் பரவலாகப் பயன்படுத்தப்பட்டு வரும், உலாவிகளில் ஒன்று. கணினிக்கான உலாவியாக உருவெடுத்த ஒரு தொழில்நுட்பம் இன்று, இணைய உலகில் தனியுரிமையை பாதுகாக்கவும், இணையத்தை கட்டற்ற அமைப்பாக வைக்கவும், தன்னாலான போராட்டத்தைச் சில சமரசங்களோடு நடத்திவருகிறது.

ஒரு பயனுருடைய தனிப்பட்ட தகவல்களை எடுத்துப் பணமாக்கவும், பயனர் வாழ் பகுதியின் அரசியலை தீர்மானிக்கவும் இணையம் பயன்படுத்தப்பட்டுவரும் இதே காலக்கட்டத்தில் தான், ஒரு அமைப்பு தனது பயனர்களின் தனிப்பட்ட தகவல்களைப் பாதுகாக்க வேண்டும் என்ற தத்துவத்துடன் உலகளவில் பல தன்னார்வலர்களின் உதவியுடன் இயங்கிவருகிறது.

இப்படியான பல கட்டற்ற/திறந்தமூல மென்பொருட்களுக்கு மொழியாக்கம் என்பது ஒரு முக்கிய படிக்கல்லாகும். அதாவது, வேற்று மொழியை அடிப்படியாகக் கொண்டு உருவாக்கப்படும் மென்பொருட்களை நமது மொழிக்கு மொழிபெயர்த்து அதைப் பலரும் பயன்படுத்தும் வகையில் கொண்டுசெல்வது முக்கிய நோக்கமாகும்.

அப்படியாக இன்று நாம் மொசில்லாவின் தமிழ் மொழியாக்கம் குறித்து இந்தக் காணொளியில் தெரிந்துகொள்ளலாம்.

சுட்டிகள்:
1. https://pontoon.mozilla.org/
2. https://mozillians.org/
3. https://groups.google.com/forum/#!forum/mozilla.dev.l10n.ta/join
4. https://lists.mozilla.org/listinfo/dev-l10n-ta

காணொளி: