Resources for Tamil Computing

தமிழில் உள்ள பொதுவெளித் தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருட்கள்

 

NLP (இயல்மொழி ஆய்வுக்கான நிரல் திரட்டு)

  1. open-tamil – பைத்தான் – https://github.com/Ezhil-Language-Foundation/open-tamil
  2. TamilNLP – பைத்தான் – https://github.com/AshokR/TamilNLP
  3. PyTamil – https://github.com/srix/pytamil
  4. ஆமுதா -பைத்தான்- https://github.com/TamilClass/amuthaa
  5. தமிழ் parsing -Java- https://github.com/drajamanik/tamil
  6. தமிழ் parsing -Java- https://github.com/velsubra/Tamil
  7. Corpus creation tools – Ruby – https://github.com/mindaslab/tamil_corpus

Corpus, Dictionaries – சொல்வங்கி,

  1. Noun list from Kaniyam – https://github.com/KaniyamFoundation/all_tamil_nouns                                                                                                                          Word list from Kaniyam – https://github.com/KaniyamFoundation/all_tamil_words
  2. Tirukkural – https://github.com/tshrinivasan/libkural
  3. Neechalkaran Tamil Corpus – https://github.com/neechalkaran/Tamil-corpus
  4. TamilNLP – https://github.com/AshokR/TamilNLP/tree/master/Resources
  5. Open-Tamil data sets – https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
  6. Tamil VU dictionary – 65000+ words – https://github.com/rprabhu/TamilDictionary
  7. Palaniappa Bros. Dictionary – https://github.com/indic-dict/stardict-tamil
  8. Nigandiyam – Wiktionary – https://ta.wikisource.org/wiki/%E0%AE%B5%E0%AE%BF%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%BF%E0%AE%AE%E0%AF%82%E0%AE%B2%E0%AE%AE%E0%AF%8D:%E0%AE%A8%E0%AE%BF%E0%AE%95%E0%AE%A3%E0%AF%8D%E0%AE%9F%E0%AE%BF%E0%AE%AF%E0%AE%AE%E0%AF%8D_%E0%AE%A4%E0%AE%BF%E0%AE%9F%E0%AF%8D%E0%AE%9F%E0%AE%AE%E0%AF%8D
  9. தமிழ்ப்புலவர்     https://github.com/ramasamy-duraipandy/tamil-pulavar

Private Corpora – தனியார் சொல்வங்கி

  1. Sketch Engine 2.6 கோடி சொற்கள் கொண்ட சொல்வங்கி       https://www.sketchengine.eu/tawac-tamil-corpus/
  2. AU-KBC Chennai – Tamil research databases – http://www.au-kbc.org/nlp/lex_re.html,         http://www.au-kbc.org/nlp/corpusrelease.html
  3. CRE-A இராகவ ஐய்யங்கார் வினைசொற்கள் / வினையடி –    https://www.crea.in/verb-table
  4. EMILLE-CIIL இந்தியமொழிகளுக்கான சொல்வங்கியில் தமிழுக்கு மட்டும் 1கோடி சொற்கள் உள்ளன. http://catalog.elra.info/en-us/repository/browse/ELRA-W0037/

AI/ML Datasets – ஆழக்கற்றல் முறை பயிற்சிக்கு பயன்படும் உரை/பட/ஒலி தரவுகள்

  1. Tamil New Corpus – 6500 articles –    https://www.kaggle.com/disisbig/tamil-news-dataset
  2. Tamil Vowels Images – MNIST Compatible –    https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset
  3. Tamil Loan Word Text dataset –    https://www.kaggle.com/muthua/tamil-loan-words-classification
  4. Tamil Wikipedia Corpus –     https://www.kaggle.com/disisbig/tamil-wikipedia-articles
  5. Mozilla Voice – தமிழில் ஒலி->உரை மாற்றி –     https://voice.mozilla.org/ta
  6. IARPA Babel Tamil Language Open KWS Dataset – 200hrs of voiced conversations + transcripts –     https://catalog.ldc.upenn.edu/LDC2017S13

AI Models

  1. Ponniyin Selvan novel – text prediction –    https://github.com/malaikannan/PonniyinSelvan_Nextchapter
  2. Tamil Vowels Images classification – MNIST Compatible –    https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset

Wiktionary, Wikipedia – விக்கிபீடியாவை ஆய்வுசெய்ய உத்திகள்

  1. Korkai Corpus builder – Go –   https://github.com/psankar/korkai
  2. Tamil Wiktionary parser – Python/Qt –   https://github.com/thamizha/tawiktionary-offline/
  3. Tamil Wiktionary parser –    https://github.com/sathia27/e2t-dictionary/

Madurai – மதுரைத்திட்டம் ஆய்வுசெய்ய உத்திகள்

  1. “மின் மதுரை” செயலி –    https://github.com/Ezhil-Language-Foundation/MinMadurai

Spell Checker – சொல்திருத்தி

  1. Language Tool –   https://github.com/languagetool-org/languagetool
  2. Affix file/dictionary for Tamil for Hunspell –   https://github.com/thamizha/thamizha-solthiruthi
  3. GNU Aspell dictionary for Tamil –   https://ftp.gnu.org/gnu/aspell/dict/0index.html
  4. Solthiruthi @ Open-Tamil

Sandhi Checker – சந்திப்பிழைதிருத்தி

  1. 40-சந்தி விதிகளை தமிழ் உரையில் திருத்தம் செய்ய -பைத்தான்-    https://github.com/nithyadurai87/tamil-sandhi-checker

Stemmer – வேர்ச்சொல் பகுப்பாய்வு

  1. Primary Tamil Stemmer – https://github.com/rdamodharan/tamil-stemmer
  2. pystemmer/Snowball – தமிழுக்கும் தழுவப்பட்டது – https://github.com/snowballstem/pystemmer
  3. [1] இதன் சாரம் Open-Tamil-இலும் காணலாம்.

Parallel-Dictionaries – ஆங்கிலதமிழ் இணையான அகராதிகள்

  1. Open-Tamil 40,000 words English-Tamil – https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
  2. English -> Tamil – https://github.com/sathia27/dictionary

Tamil Word Net – தமிழ் சொல்பின்னல்

  1. AU-KBC, Tamil University Thanjavur -Java-    http://www.au-kbc.org/nlp/TamilWordnet.tgz
  2. IIT-Bombay/CIFLT, TDIL Indic/Tamil Wordnet –   https://tdil-dc.in/indowordnet/

Morphological Analysis – சொல்வடிவ பகுப்பாய்வு

  1. FST/Tamizhi-Morph – –    https://github.com/sarves/thamizhi-morph
  2. ML Morph – மலயாளம் சொல்வடிவ பகுப்பாய்வு –   https://github.com/smc/mlmorph
  3. Polyglot – பைத்தான் –   https://github.com/aboSamoor/polyglot

Dependency parser

  1. UDD –   https://github.com/UniversalDependencies/UD_Tamil-TTB
  2. அவலோகிதம் – Venba parser –   https://github.com/virtualvinodh/avalokitam

POS – இடம்சூட்டுபெயர் பகுப்பாய்வு செயலிகள்

  1. RDRPOSTagger – R –   https://github.com/datquocnguyen/RDRPOSTagger
  2. RippleTagger – பைத்தான் –   https://github.com/EmilStenstrom/rippletagger
  3. TamilNLP – பைத்தான் –   https://github.com/AshokR/TamilNLP

Cloud Computing

  1. Bringup Tamil friendly Unix OS –   https://github.com/Ezhil-Language-Foundation/padai

Keyboard Manager

  1. eKalappai – C++ –   https://github.com/thamizha/ekalappai

Proprietary Keyboard Manager

  1. Murasu Anjal – http://anjal.net/murasu-anjal-muthal-edition/
  2. NHM Writer –   https://indiclabs.in/products/writer/

Fonts (எழுத்துருக்கள்)

  1. Open-Source Tamil Fonts –  https://github.com/thamizha/tamil-fonts
  2. Meera Tamil –  https://github.com/santhoshtr/meera-tamil
  3. Catamaran Tamil –  https://github.com/VanillaandCream/Catamaran-Tamil
  4. Amma  – https://github.com/mooniak/amma-font
  5. நீச்சல்காரன் தமிழ் எழுத்துருக்கள் –  http://oss.neechalkaran.com/tamilfonts/
  6. இராமசாமி துரைப்பாண்டி அவரது தமிழ் எழுத்துருக்கள் – https://github.com/ramasamy-duraipandy/tamil-unicode-fonts
  7. பேரா. இல. சுந்தரம் தமிழ் எழுத்துருக்கள் – கணியம் வழி – http://www.kaniyam.com/ila-sundaram-unicode-tamil-fonts/      http://www.kaniyam.com/download/ila-sundaram-unicode-tamil-fonts.zip

Encoding (எழுத்துரு மாற்றி)

  1. txt2ipa – பைத்தான் – https://github.com/arulalant/txt2ipa
  2. txt2unicode – பைத்தான் – https://github.com/arulalant/txt2unicode

Blogs/Tutorials – அறிமுக கட்டுரைகள்

  1. https://kaniyam.com
  2. https://nivedithakarmegam.wordpress.com/2019/03/31/text-preprocessing-tools-for-tamil-language/
  3. https://ezhillang.blog/category/tamil-nlp/
  4. https://goinggnu.wordpress.com
  5. https://indicnlp.org

OCR

  1. PDF2Text using Google OCR – https://github.com/KaniyamFoundation/Pdf2Text
  2. Tesseract for Tamil GUI – https://github.com/Parathantl/tesseract_gui
  3. Tesseract based OCR API – https://github.com/neechalkaran/OCR

TTS

  1. Concatennative Synthesis on Diphones – https://github.com/sunnyglow/ThamizhPesi
  2. Concatennative Synthesis on Syllables – https://github.com/vasurenganathan/tamil-tts
  3. Dhvani – https://github.com/tshrinivasan/dhvani-tts

ASR

  1. Mozilla Voice – தமிழில் ஒலி->உரை மாற்றி – https://voice.mozilla.org/ta

Programming Languages – தமிழில் கணினி மொழிகள்

  1. Ezhil – http://github.com/Ezhil-Language-Foundation/ezhil-lang
  2. CLJ-Thamil – https://github.com/echeran/clj-thamil

இதர

  1. தமிழ் பா தேடல் – search on poetry- https://github.com/seekshiva/tamil-paa-thedal
  2. தமிழில் உள்ள எண்கள் எண்குறியீடுகள் பற்றிய – https://github.com/julienmalard/ennikkai/

பட்டியல்கள்

  1. த.இ.க மென்பொருள் பட்டியல்   http://www.tamilvu.org/coresite/html/cwsoftlist.htm
  2. கணியம் –   https://github.com/KaniyamFoundation/awesome-tamil-nlp
  3. கொர்க்கை சங்கர் –   https://github.com/psankar/TamilFOSS
  4. தங்கமணி அருண் –   https://github.com/thangamani-arun/Tamil-NLP-Resources
  5. நீச்சல்காரன்    http://oss.neechalkaran.com/tamilsoftwares
  6. பழந்தமிழ் இலக்கியங்களில் தேட   http://sangam.tamilnlp.com/mp/json/

 

Thanks / நன்றி
Mr. Muthiah Annamalai ,  திரு.  முத்து அண்ணாமலை.
California, USA.  கலிஃபோர்னியா,  ஐக்கிய அமெரிக்கா.