छत्तीसगढ़ी भाषा के उन्नयन हेतु केंद्रीय भारतीय भाषा संस्थान का मैसूर आगमन

भारतीय भाषाओं के लिए लिग्विस्टिक डेटा कंसोशिरयम (LDCIL) उच्च शिक्षा विभाग मानव संसाधन और विकास मंत्रालय, भारत सरकार की एक योजना है, जिसे 2007 में स्थापित किया गया है, जोकि केंद्रीय भारतीय भाषा संस्थान, मैसूर द्वारा कार्यान्वित है।

एलडीसी _आईएल ने अपने डेटा वितरण पोर्टल के माध्यम से 4 अप्रैल, 2019 से आर्टिफिशियलइंटेलिजेंस (एआई) और प्राकृतिक भाषा संसाधन (एनएलपी) के लिए मुख्य रूप से भारतीय भाषाओं में भाषाई संसाधनों का वितरण शुरू कर दिया है, इस पोर्टल का अनावरण माननीय उपराष्ट्रपति श्री वेंकैया नायडू द्वारा किया गया है।

एलडीसीआईएल डाटा पोर्टलपर

विभिन्न भारतीय भाषाओं के 42 डाटासेट जारी किया है, जैसे, मानक मौलिक टेक्स्ट कॉर्पस बंगाली, बोडो, डोगरी, गुजराती, हिंदी, कन्नड़, कश्मीरी, कोंकणी, मैथिली, मलयालम, मणिपुरी, मराठी, नेपाली, उडिया, पंजाबी, तमिल, तेलुगु, उर्दू, असमिया।

मौलिक स्पीच कॉर्पस_ बंगाली, बोडो, हिंदी, कन्नड, कोकणी, मैथिली, मलयालम, मणिपुरी, मराठी,नेपाली, पंजाबी, तेलुगु, उर्दू, गुजराती, तमिल, डोगरी, कश्मीरी, उड़िया, असमिया, गुजराती, (एकल),बहुभाषी भारतीय-अंग्रेज़ी (बंगाली) भारतीय-अंग्रेज़ी (कन्नड)।मशीन लर्निंग की प्रक्रिया में टेक्स्ट डाटासेट का उपयोग कई प्रकार की भाषा मोडलिंग कार्यों के लिए किया जा सकता है। इसके अतिरिक्त, एलडीसी आईएल के सभी डाटासेट अपनी भाषा के प्रतिनिधि हैं, उनका उपयोग कई प्रकार के भाषाई विश्लेषण के लिए भी किया जा सकता है और यह भाषा और भाषाई अध्ययन तथा भाषा-तकनीक के कई उपविषयों में उपयोगी हो सकता है। स्पीच डाटासेट का उपयोग ऑटोमेटिक स्पीच रेकग्निशन (Automatic Speech Recognition) और टेक्स्ट से स्पीच सिस्टम (Text to Speech Systems) के लिए और साथ ही अन्य प्रकार के स्वन विज्ञान, स्वनिम विज्ञान और ध्वनिक विश्लेषण के लिए किया जा सकता है।

See also  फिर फडणवीस को लगेगा झटका? CM के लिए दूसरे नामों पर भी विचार कर रही है भाजपा

वर्तमान में एलडीसी _आईएल द्वारा पार्ट ऑफ स्पीच (पीओएस) टैगिंग, मोर्फोलॉजिकल एनालाइजर (एमए), चकिंग और पासिंग, स्पीच डाटा सेगमेंटेशन और एनोटेशन फॉर ऑटोमैटिक स्पीच रेकग्निशन (एएसआर) आदि कार्य किए जा रहे हैं। छत्तीसगढ़ी डाटा (स्पीच एवं टेक्स्ट बुक) के संग्रह के लिए एल डी सी आई एल, भारतीय भाषा संस्थान मैसूर सेडॉ. सत्येन्द्र अवस्था, सौरभ वारिक, डाक्टर सृष्टि सिंह,शांतनु झा रूपेश पाडे, अंकिता तिवारी आदिविश्व विद्यालय आए हुए हैं।

डॉ अवस्थी ने बताया कि संस्थान द्वारा छत्तिसगढ़ी के संबर्धन एवं भाषाई तकनीक के विकास के लिए डाटा का संग्रह किया जा रहा है। यह भाषाई तकनीक के लिए अत्यन्त आवश्यक है। मैसूर सी आई आई एल, से आई हुई पूरी टीम को रविशंकर वि. वि. के. भाषा एवं साहित्य एवं भाषा – अध्ययनशालाका सानिध्य प्राप्त हुआ। जिसमें विभाग की अध्यक्ष प्रो. शैल शर्मा, एवं अन्य प्राध्यापकगणों प्राप्त का सहयोग हुआ। इस कार्य हेतु मुख्य सहयोगी के रूप में श्रीमती गीता शर्मा, डॉ. विभाषा मिश्र, श्री गजेन्द्र साहू श्री गुलशन साहू और साहू ललिता साहू रहे।

See also  छत्तीसगढ़ : ऑटो और ट्रेलर वाहन की जोरदार टक्कर, दो सगे भाइयों की दर्दनाक मौत