नेपाली-तामाङ र अंग्रेजी जोड्ने एआई प्रणाली तयार, केयूले बनायो त्रिभाषिक अनुवाद प्रणाली

बुधबार, ३ असार, २०८३

काठमाडौं । काठमाडौं विश्वविद्यालयको सूचना तथा भाषा प्रशोधन अनुसन्धान प्रयोगशाला (ILPRL) ले गुगलको सहयोगमा सञ्चालन गरेको ऐतिहासिक त्रिभाषिक मेसिन अनुवाद (Trilingual Machine Translation – TMT) परियोजना सफलतापूर्वक सम्पन्न गरेको छ । ललितपुरको कुपन्डोलस्थित हिमालय होटलमा आयोजित समापन समारोहमा परियोजनाको औपचारिक समापन गरिएको हो ।

गुगल एकेडेमिक रिसर्च अवार्ड २०२४ अन्तर्गत ‘सोसाइटी–सेन्टर्ड एआई’ पहलबाट वित्त पोषित यो परियोजनाले नेपालको डिजिटल भाषिक विभाजन घटाउने दिशामा महत्वपूर्ण उपलब्धि हासिल गरेको छ । कार्यक्रममा शिक्षा, उद्योग, सरकारी निकाय, गैरसरकारी संस्था तथा कूटनीतिक क्षेत्रका १०० भन्दा बढी प्रतिनिधिको सहभागिता रहेको थियो ।

भाषाबीचको दूरी घटाउँदै समुदायलाई सशक्त बनाउने लक्ष्य
त्रिभाषिक मेसिन अनुवाद प्रणालीले नेपाली, तामाङ र अंग्रेजी भाषाबीच स्वचालित रूपमा पाठ अनुवाद गर्ने एआई प्रविधिमा आधारित उपकरण विकास गरेको छ । यसले भाषिक रूपमा पछाडि परेका समुदायलाई सूचना र सार्वजनिक सेवामा समान पहुँच पुर्‍याउने उद्देश्य राखेको छ ।

काठमाडौं विश्वविद्यालयले त्रिभुवन विश्वविद्यालयको भाषाविज्ञान केन्द्रीय विभाग र तामाङ राष्ट्रिय पुस्तकालयसँगको सहकार्यमा दुई वर्षको अवधिमा १ लाखभन्दा बढी समानान्तर वाक्य समेटिएको ‘गोल्ड स्ट्यान्डर्ड’ भाषा डाटासेट तयार गरेको हो । यो डाटासेट कृषि, शिक्षा, स्वास्थ्य, संस्कृति तथा पर्यटन र सामान्य सञ्चार गरी पाँच महत्वपूर्ण क्षेत्रलाई समेटेर निर्माण गरिएको छ ।

समारोहमा परियोजनाका प्रमुख अनुसन्धानकर्ता प्रा. डा. बालकृष्ण बलले परियोजनाको विवरण प्रस्तुत गर्दै प्रत्यक्ष प्रविधि प्रदर्शन गरेका थिए । उनले नेपालका कम प्रयोग हुने भाषाका लागि समुदायमा आधारित र विस्तार गर्न सकिने मेसिन अनुवाद प्रणाली विकास गर्नु परियोजनाको मुख्य उद्देश्य रहेको बताए ।

उनका अनुसार समुदायलाई डिजाइन, विकास र प्रयोग प्रक्रियामा सहभागी गराएर तयार गरिएको यो प्रणालीले स्थानीय शासन, विद्यालयका बहुभाषिक सामाग्री निर्माण र तामाङ भाषाको संरक्षणमा सहयोग पुर्‍याउनेछ ।

स्थानीय डाटामा आधारित अत्याधुनिक एआई प्रविधि
परियोजनाअन्तर्गत मेटा एआईको खुला स्रोत मोडल NLLB-200 (No Language Left Behind) लाई स्थानीय रूपमा तयार गरिएको उच्च गुणस्तरीय भाषा डाटासेट प्रयोग गरी परिमार्जन गरिएको छ ।

कार्यक्रममा सार्वजनिक गरिएको प्रणालीमा तीन प्रमुख भाषा जोडीबीच तत्काल अनुवाद गर्ने सुविधा, वेबपेज अनुवाद, फाइल अनुवाद र प्रयोगकर्ताको प्रतिक्रिया संकलन गर्ने सुविधा समावेश गरिएको छ ।

यस प्रणालीमार्फत प्रयोगकर्ताले सरकारी वेबसाइटको यूआरएल राखेर सम्पूर्ण पृष्ठ अनुवाद गर्न सक्छन् । त्यस्तै, .docx र .pdf फाइल अपलोड गरी अनुवादित संस्करण प्राप्त गर्न सकिने सुविधा पनि उपलब्ध छ । प्रयोगकर्ताको मूल्यांकन र प्रतिक्रियाका आधारमा प्रणालीलाई निरन्तर सुधार गर्ने व्यवस्था समेत राखिएको छ ।

अनुसन्धान, समुदाय सहभागिता र विस्तारको योजना
परियोजनाको सफलताका लागि २०२५ को अन्त्यतिर बीटा परीक्षण, ह्याकाथन तथा विभिन्न सरकारी निकायसँग परामर्श कार्यक्रम सञ्चालन गरिएको थियो । परियोजना टोलीले भाषा आयोग, प्रधानमन्त्री तथा मन्त्रिपरिषद्को कार्यालयअन्तर्गत सूचना प्रविधि विभाग र बागमती प्रदेश सरकारसँग समेत प्रविधिको प्रयोग र विस्तारबारे छलफल गरेको थियो ।

परियोजनासँग सम्बन्धित अनुसन्धानपत्रहरू अन्तर्राष्ट्रिय स्तरका सम्मेलनहरू LREC २०२६, SPELL २०२५ र EAMT २०२६ मा प्रकाशित तथा स्वीकृत भएका छन् ।समारोहमा भाषा विज्ञ, अनुवादक र स्थानीय समुदायका योगदानकर्तालाई विशेष सम्मान गरिएको थियो । वरिष्ठ भाषाविद् तथा तामाङ भाषा अभियन्ता अमृत योञ्जन तामाङले भाषा डाटासेट निर्माण प्रक्रियाका अनुभव साझा गरेका थिए ।

प्रमुख अनुवादक इन्द्र तामाङसहित अनुवाद टोलीको योगदानलाई पनि प्रशंसा गरिएको थियो । समारोहका प्रमुख अतिथि प्रा. डा. माधव पोखरेलले अत्याधुनिक प्रविधिको प्रयोगमार्फत भाषा संरक्षणमा गरिएको यो प्रयास महत्वपूर्ण भएको बताए ।

भविष्यमा थप भाषा र प्रविधि विस्तार गर्ने योजना
समापन कार्यक्रममा परियोजना टोलीले आगामी योजनाबारे जानकारी दिँदै थप आदिवासी तथा स्थानीय भाषालाई प्रणालीमा समेट्ने, स्वचालित वाक् पहिचान (Automatic Speech Recognition – ASR) र टेक्स्ट–टु–स्पिच (Text-to-Speech – TTS) प्रविधि जोड्ने लक्ष्य रहेको जनाएको छ ।