भांगरभूंय | प्रतिनिधी
कोंकणींच्या बोलींचे बाबतींत लेगीत गोंदळ जावपाक शकता देखीक- कांय लोक “वेता” बरयतात जाल्यार कांय लोक “वयता” आनी कांय दुसरे लोक “वता” बरयतात.
कोंकणी उलोवपी लोकांमदीं एक अशी समजिकाय आसा की कृत्रीम बुदवंतकायेच्या क्षेत्रांत कोंकणीक स्थान ना वा चॅट-जिपिटी आनी जेमिनाय सारकिल्ले प्रकल्प कोंकणी परस हिंदी/ मराठी चड बरे तरेन समजता वा वापरूंक शकता आनी अशें म्हणप/ मानप फट न्हय. आधुनीक कृत्रीम बुदवंताकयेचो वापर करून त्या भासांनी निबंध, काणयो, कादंबरी बरोवंक जाता, कायद्या संबंधी पत्रवेव्हार करूंक जाता, संगणकी कोड बरोवंक जाता आनी खूब कितें करूंक जाता, जाल्यारूय असल्या प्रकल्पांचो वापर करून संख्येन आनी प्रतिनिधित्वान ल्हान आशिल्ल्या भारतीय भासांनी एक सादी वळ चूक नासतना बरोवंक कित्याक जायना? हाचीं कारणां केवळ राजकी वा वेवसायीक न्हय, तीं भाशीक आनी संगणकीय लेगीत आसात.
टोकनीकरण
एक कारण म्हणल्यार “टोकनीकरण”. चॅटबॉटान भास समजुंचे पयलीं, ताणें भाशेंत बरयल्लो मजकूर “टोकन” नांवाच्या भागांनी विभागपाक जाय. इंग्लेज, हिंदी, मराठी बी भासांनी टोकनीकरण करप चॅटबॉटाक सोंपें पडटा कारण त्या भासांनी प्रामाणीकरण खूब आदी जावन गेलां आनी त्या भासांच्या प्रमाण रुपान बरयल्लें साहित्याचें भांडार खूब व्हड आसा, देखून चॅटबॉटाक पारखुपा पासत खूब साधनां उपलब्ध जाता. कोंकणीची स्थिती तांचे परस वेगळी आसा, कोंकणीचें प्रमाणीकरण हालींच जालां आनी अजून जावपाचे प्रक्रियेंत आसा. ते भायर अजून कांय लोक कोंकणी भास देवनागरी सांगाता कन्नड आनी रोमी लिपींनी लेगीत बरयतात आनी दरेके लिपींत शुद्धलेखन आनी बरोवपाची पद्धत विंगड आसा. देवनागरींत बरयल्ली कोंकणीची एक वळ कन्नड लिपींत बरयतना विंगड तरेन बरोवंक जाता वा रोमींत आनीक विंगड तरेन बरोवंक जाता, अशे जावन चॅटबॉटान गोंदळांत पडपाची संभावना मुखार येता. ह्या गोंदळा निमितान चूक जावंक शकता.
बोलीं बाबतींत गोंदळ
कोंकणीच्या बोलयांचे बाबतींत लेगीत गोंदळ जावपाक शकता देखीक- कांय लोक “वेता” बरयतात जाल्यार कांय लोक “वयता” आनी कांय दुसरे लोक “वता” बरयतात. ह्यो तीन तरा लोकांक वळखूंक येता, पूण त्यो बोलीवार तरा चॅटबॉटाक (म्हणल्यार मशीन लर्निंग कार्यप्रणालीक) गोंदळांत घालतात. एकाच उतराचें तीन विंगड- विंगड रूप म्हणून वळखुपाचे सुवातेर चॅटबॉट तांकां तीन वेगवेगळें संबंद नाशिल्लें उतर मानून गैरसमज करून घेता. ह्या तुटक समजणी निमितान चॅटबॉटचे भाशा प्रणालीची कार्यक्षमताय उणी जाता कारण एकूच उतर जायत्या टोकन रुपांनी फुटून वता. एक बळिश्ट प्रातिनिधीक रूप शिकचें (आनी विंगड रुपांक ताचेंच पोटरूप मानचें) परस चॅटबॉटची भाशा प्रणाली जायतीं दुबळीं रुपां शिकता आनी गोंदळांत पडून चुको करता.
उतरांचो आकार
कोंकणी उतरांच्या आकाराक लागून आनिकूय खोल अडचणी निर्माण जातात. कोंकणी भास रुपात्मक नदरेन गिरेस्त आसा, म्हणल्यार काळ, लिंग, संख्या, पुरुश, प्रकरणा, विभक्ती प्रमाण कुसां/प्रत्यय लागून उतरांच्या रुपांत व्हड प्रमाणांत बदल जाता. एकाच मुळसांतल्यान 12- 14 रुपां निर्माण जावंक शकतात. इंग्लेजींत उतरा-उतराक अर्थ आसता, पूण कोंकणींत केवळ उतरांक न्हय तर कुसांक वा प्रत्ययांक लेगीत अर्थ आसता. “वचूंक” हें क्रियावाचक उतर घेवंया, काळ, पुरुश आनी लिंगा प्रमाण ताचीं रुपां अशीं जावंक शकतात- वतां, वता, वतात, वतांव, गेलां, गेल्यां, गेला, गेल्या, गेल्यात, गेल्यांव, वतालों, वताली, वतालें, वतालो, वताले, वताल्यो, वतालीं, गेलों, गेली, गेलें, गेलो, गेले, गेल्यो, गेलीं, गेल्लों, गेल्ली, गेल्लें, गेल्लो, गेल्ल्यो, गेल्लीं, वतलों, वतली, वतलें, वतलो, वतले, वतल्यो, वतलीं, वचन, वचूं, वचशी, वचशात, वचत, वचात, वच, वचप; आनीक एक देख म्हणून “मनीस” उतर घेवंया, ताचीं रुपां अशीं जावंक शकतात- मनीस, मनशाक, मनशान, मनशाचो, मनशाची, मनशाचें, मनशाचे, मनशाच्यो, मनशाचीं, मनशाच्यान, मनशांत, मनशा, मनशांक, मनशांनी, मनशांचो, मनशांची, मनशांचें, मनशांचे, मनशांच्यो, मनशांचीं, मनशांच्यान, मनशांनो, पूण हीं सगलीं रुपां एकाच कडेन एकठांय वापरिल्लीं मेळना देखून चॅटबॉटची भाशा प्रणाली सुदृढपणान कोंकणीचे व्याकरणीक नेम शिकपांत फाटीं पडटा.
निरर्थक प्रातिनिधीक रुपांची भिरांत
आमची भास “जोडपी” भास, म्हणल्यार आमीं कुसां जोडून जोडून वेगवेगळ्या अर्थांचीं उतरां वापरतात. मूळ उतरांक हीं कुसां जोडिल्ल्या निमितान आमचीं कांय उतरां दिसपाक लांब दिसतात. कोंकणी खातीर खासा तयार केल्लो नाशिल्लो टोकनायझर (‘टोकन’ विभागपी प्रक्रिया) ह्या रुपांचें चुकीचें विभाजन वा विलीनीकरण करून निरर्थक प्रातिनिधीक रुपां तयार करूंक शकता. ही समस्या खास करून कोंकणी सारकिल्ले भाशेक अडचण हाडटा कारण आयज घोळणुकेंत आशिल्ले भाशा टोकनीकरण प्रणाली उपशब्द टोकनीकरण प्रक्रियेचेर आधारीत आसात जी प्रक्रिया मुखेलपणान इंग्लेज, चीनी, पुर्तुगेज वा इस्पाञोल सारकिल्ल्या संसाधन गिरेस्त भासांचेर आदारून घडयल्ली.
समजणिचेर परिणाम
कोंकणीचे बोली विविधतायेचोय यंत्राच्या समजणिचेर परिणाम पडटा. कोंकणी भाशेक खुबश्यो बोली आसात. मालवणची कोंकणी, पेडणेंची कोंकणी, सत्तरीची कोंकणी, बारदेसची कोंकणी, अंत्रूज म्हालाची कोंकणी, साश्टीची कोंकणी, काणकोणची कोंकणी, कारवारची कोंकणी, कुमठाची कोंकणी, मंगळुरची कोंकणी, भटकळ नवायतांची कोंकणी, केरळचीं कोंकणी, कासरगोडची कोंकणी, क्रिस्तांवांची कोंकणी आनी खुबश्यो वेगवेगळ्यो समुदायवार कोंकणी बोली आसता. कोंकणी बोलयांनी उच्चार, उतरावळ, वाक्यरचना, वाक्प्रचार, म्हणी-ओपारी, उमाणीं, हातूंत म्हत्वाचो फरक आसूं येता आनी तसले फरक आसचे साभावीक. गोंय विद्यापिठाच्या प्रकाशनांतल्यान चड करून प्रमाण देवनागरी कोंकणीचेर प्रशिक्षण घेतिल्ल्या चॅटबॉटाक बोलीरुपां समजुपाक अडचण जावंक शकता. वेव्हारीक दिश्टीन कोंकणी तंत्र आसून लेगीत जायत्या कोंकणी उलोवप्यांक कृत्रीम बुदवंतकायेच्या प्रणालींक “आपले तरेची कोंकणी समजना” अशें दिसूंक लागता.
डिजीटल मजकूर जाय
सैमीक भाशा प्रक्रियेच्या (Natural Language Processing, NLP) सोदवावरांत कोंकणी ही उण्या साधनसंपत्तीची भास आशिल्ल्यान अडचण चड खर जाता. आधुनीक चॅटबॉटांक भास शिकून काडपा खातीर व्हड प्रमाणांत डिजिटल मजकूर जाय पडटा: पुस्तकां, दिसाळीं, नियतकालिकां, संकेतथळां, व्हिडियोंतले पोटमाथाळे, सोशल मीडिया पोस्ट, त्या पोस्टाचेर केल्ल्यो टिपो आनी टिपणी केल्लें भाशीक भांडार/ उतरावळ. इंग्लेज भाशेचीं कोटिंनी उतरां ऑनलायन माध्यमांचेर उपलब्ध आसात, पूण जायते पोरणे कोंकणी ग्रंथ वा पोरणीं कोंकणी पुस्तकां अजून डिजिटल जावंक नांत. जीं पुस्तकां डिजिटल जाल्यांत, तातूंत खुबश्या पुस्तकांत असंगत एनकोडिंग वा अस्पश्ट एनकोडिंग/ टंकन पळोवंक मेळटा. कांय पुस्तकांचो टंकन युनिकोडांत ना, कारण त्या काळार युनिकोड प्रमाण नाशिल्लें. डेटा (वा दत्तांश) अस्तित्वांत आसतनाय लेगीत खूबदां तें यंत्र-संगत आसना. भारतीय लिपी, खास करून देवनागरी वा कन्नड लिपीचो छापील मजकूर स्कॅन करतना ओसीआर प्रणालींत खूबदां चुको जातात. कन्नड लिपींत आनी रोमींत शुद्धलेखनाचें प्रमाणीकरणाचो उणाव वा राजकी स्तरार वापराचो उणाव आशिल्ल्यान त्या लिपींनी बरयल्ले ग्रंथांत वेगवेगळें लेखन पद्दत दिसून येता. हाका लागून भोवलिपीय कोंकणी प्रशिक्षण डेटा इबाडटा आनी विसंगत जाता. हाकाच लागून देवनागरी लिपींत लेगीत चुको भितर सरतात.
आॅडियो- डेटा भांडार ना
ह्या साधनसंपत्तीच्या आनी सारकेपणाच्या उणावांक लागून कोंकणी तंत्रगिन्यानच्या दरेका पांवड्यार परिणाम पडटा. कोंकणी उलोवप वळखुपी प्रणाली (speech recognition system) अपेशी थारता कारण फावो तसलें ऑडियो-डेटा भांडार आमचे कडेन ना. कोंकणी आनी इंग्लेज हांचे मदीं समांतर-सठीक भांडार उणे आशिल्ल्यान मशीन अणकार संघर्शांत पडटा. शुद्धलेखन पारखुपी प्रणाली लेगीत प्रमाण उतरावळेच्या उणावाक लागून दुबळी उरता. हीं सगलीं दुबळेपणां मागीर चॅटबॉटांत आपशींच भितर सरतात.
व्हड भाशांचेर लक्ष
आनीक एक दुर्लक्षीत मुद्दो म्हणल्यार कृत्रीम बुदवंतकायेंत वावरपी व्हड व्हड कंपनींची भाशीक प्राधान्यताय. सैमीक रितीन, ह्यो कंपनी, तांकां लाव दिवपी व्हड भासांचेर आपले लक्ष्य केंद्रीत करतात. हिंदी, चीनी, इस्पाञोल, पुर्तुगेज, इंग्लेज, अरबी, फ्रॅंच आनी दुसऱ्या एवरोपीय भासांचेर ते चड वावर करतात कारण तसल्या वावरा पासत तांकां चड गुंतवणूक मेळटा. भारता भितर लेगीत कृत्रीम बुदवंतकायेंत आसपावपा खातीर मराठी, बंगाली, तामीळ, तेलेगू, कन्नड सारकिल्ल्या भासांचेर प्राधान्यताय आसता, कारण तांची लोकसंख्या व्हड आसा. विद्यापिठां, सरकारां आनी समाजीक संस्थांनी उक्तें डेटा भांडार आनी भाशीक साधनां सक्रियपणान तयार केल्या बगर कोंकणी सारकिल्ल्यो ल्हान भासो डिजिटल माध्यमांत खास करून ह्या कृत्रीम बुदवंतकायेच्या युगांत कुशीक पडपाचो हुस्को आसा.
तरी लेगीत परिस्थिती तितलीय निराशाजनक ना. भोवभाशीक भास प्रणालींतल्या हालींच्या काळांतल्या प्रगतींतल्यान उण्या संसाधनांच्या भाशांक संबंधीत चड संसाधन आशिल्ल्या भासांचो अप्रत्यक्ष लाव जावंक शकता अशें दिसून आयलां. कोंकणीक मराठी, गुजराती, हिंदी आनी कन्नड भासांचो संपर्क आसा देखून तांच्या पालवान कोंकणी चॅटबॉट वा कोंकणी कृत्रीम बुदवंतकायेंत सुधार करूं येता. एकाच वेळार जायत्या भारतीय भासांचेर प्रशिक्षीत प्रणाली उपेगी साम्य आशिल्लें (भारतीय भासांनी उतरावळीचें खूब साम्य आसा हें आमीं जाणात) घेतिल्लें प्रातिनिधित्व शिकूं येता.
समुदायीक रितीन चालीक लायल्ल्या यत्नांक लागुनूच व्हडलोसो फरक पडूं येता. पोरण्या कोंकणी साहित्याचें (पुस्तकांचें) सारकें डिजिटलीकरण, मुक्त स्रोत कोंकणी भांडार तयार करप, प्रमाणीक टिपणी केल्ले डेटा भांडार तयार करप, बोली विविधतायेचें भांडार तयार करप, देवनागरी, रोमी आनी कन्नड लिपींचें शुद्धलेखन तत्त्वां समरूप करप, ह्या यत्नांक लागून कोंकणी सैमीक भाशा प्रक्रियेचो दर्जो खूब सुदारतलो. सादे प्रकल्प जशे संवादात्मक रेकॉर्डिंग एकठांय करप वा पुस्तक वाचनांचें रेकॉर्डिंग तयार करप, फुडल्या कृत्रीम बुदवंतकायेचे भाशा प्रणालींक कोंकणी चड सैमीक रितीन समजून घेवपाक मदत करूंक शकता.
भाशा आॅनलायन येवंक जाय
फकत चॅटबॉट आयज कोंकणी सारकी समजूंक शकता काय ना हो प्रस्न न्हय. खरो प्रस्न म्हणल्यार कृत्रीम बुदवंतकायेच्या फुडाराक आकार दिवपाक ल्हान भाशीक समुदाय वांटो घेतले काय ना. ह्या तंत्यगिन्यानाच्या युगांत, भासो फकत घरांनी उलोवन वा छापील पुस्तकांनी न्हय तर ऑनलायन माध्यमांचेर आनी मशीन-लर्निंग डेटा भांडारांचेर येवंक जाय आनी तिगून उरूंक जाय. डिजिटल रितीन कोंकणीचें प्रतिनिधित्व उणें उरल्यार फुडाराच्या तंत्रगिन्यानाक लागून ल्हवू ल्हवू तिका मुखेल प्रवाहांतल्या संपर्कांतल्यान व्हगडावपाची संभावना आसा.
ह्या अर्थान सैमीक भाशा प्रक्रिया ही फकत तांत्रीक क्षेत्र न्हय. आमची कोंकणी भास फुडारा पासत सांबाळपाचोच ती एक भाग जाल्या आनी ह्या प्रक्रियेंत आमकां जितलें जाता तितलें योगदान आमीं दिवंक जाय.
शशांक शणै
7022694191
खिणाखिणाक ताज्यो घडणुको आनी तुमचे कडेन संबंदीत दरेक खबर मेळयात एका क्लिकाचेर! फेसबूक, ट्विटराचेर आमकां फॉलो करात आनी व्हाट्सएप सबस्क्रायब करपाक विसरूं नाकात.