
भारतीय भाषाओं के लिए लार्ज लैंग्वेज मॉडल्स बनाने में हैं कई चुनौतियां, आईआईटी प्रोफेसर से समझिए
आईआईटी बॉम्बे के प्रोफेसर गणेश रामकृष्णन ने भारतजेन के तहत भारतीय भाषाओं के लिए LLM (लार्ज लैंग्वेज मॉडल्स) बनाने में आ रही चुनौतियों पर बात की
आईआईटी बॉम्बे के प्रोफेसर गणेश रामकृष्णन भारतजेन के प्रधान अन्वेषक हैं, जिसे भारत की पहली सरकार-प्रायोजित बहुभाषी और मल्टीमॉडल फाउंडेशनल जेनेरेटिव एआई पहल के रूप में वर्णित किया गया है।
यह परियोजना एक सहयोगात्मक प्रयास है जिसमें आईआईटी बॉम्बे, आईआईटी मद्रास, आईआईटी हैदराबाद, ट्रिपल-आईटी हैदराबाद, आईआईएम इंदौर और आईआईटी मंडी जैसे प्रमुख संस्थान शामिल हैं, और इसे विज्ञान एवं प्रौद्योगिकी विभाग द्वारा वित्तपोषित किया गया है।
आईआईटी बॉम्बे में प्रो. रामकृष्णन कंप्यूटर साइंस और इंजीनियरिंग विभाग में डिजिटल उद्यमिता के बैंक ऑफ बड़ौदा चेयर प्रोफेसर हैं। The Federal को दिए इस विशेष साक्षात्कार में उन्होंने 16 भारतीय भाषाओं में LLM (लार्ज लैंग्वेज मॉडल्स) विकसित करने की प्रक्रिया, चुनौतियाँ, और भविष्य की दिशा के बारे में विस्तार से बताया।
इंटरव्यू के अंश
प्र. भारतजेन भारतीय भाषाओं के साथ क्या कर रहा है? आप भारतीय भाषाओं के लिए LLM बना रहे हैं?
उ. हाँ, हम भारतीय भाषाओं के लिए एक LLM बना रहे हैं। हम भारी मात्रा में डेटा को टोकनाइज़ कर रहे हैं, लेकिन यह टोकनाइज़ेशन इस आधार पर हो रहा है कि भारतीय भाषाओं के बीच शब्दों की समानता (lexical similarity) का लाभ उठाया जाए। उदाहरण के लिए, तमिल और मलयालम के बीच कई समान शब्द होते हैं। यह एक क्रमिक संक्रमण (gradation) है – ज़रूरी नहीं कि सभी भाषाएं एक जैसे शब्दों का प्रयोग करें, लेकिन कुछ भाषाओं में मिलती-जुलती शब्दावली होती है।
यह समानता इस बात पर भी निर्भर करती है कि आप किस प्रकार का साहित्य पढ़ रहे हैं – प्राचीन साहित्य में अधिक समानता हो सकती है, जबकि आधुनिक में कम।
दूसरा बड़ा पहलू है – भाषाओं की वाक्य रचना (syntactic structure)। उदाहरण के लिए, अंग्रेजी में “I eat mangoes” की संरचना है subject-verb-object, जबकि तमिल में, हिंदी में, मराठी में – सबमें subject-object-verb की संरचना होती है। यह संरचना भारतीय भाषाओं के बीच एक बड़ी समानता है।
हमारी टीम ने एक पुस्तक “समन्वय” भी लिखी है, जिसमें हमने दिखाया है कि कुछ संरचनात्मक समूहों (जैसे शब्दों के समूह और dependency relations) के माध्यम से सभी भारतीय भाषाएं एक-दूसरे से बहुत मिलती-जुलती प्रतीत होती हैं – यह पाणिनि के कारक सिद्धांत से प्रेरित विश्लेषण है।
तीसरी समानता है – ध्वनियाँ (phonemes), अर्थात् भाषण स्तर पर। सामान्य लेबल सेट (Common Label Set - CLS) का प्रयोग करके हमने देखा कि भारतीय भाषाएं ध्वनि स्तर पर भी काफी मिलती-जुलती हैं।
प्र. अंग्रेजी की तुलना में भारतीय भाषाओं के लिए डेटा काफी कम है, तो आप इस चुनौती का सामना कैसे कर रहे हैं?
उ. हाँ, डेटा सीमित है। हम तीन स्त्रोतों से डेटा संकलित कर रहे हैं, OCR (Optical Character Recognition) के माध्यम से कॉपीराइट-फ्री किताबों को डिजिटल रूप में लाकर
UDAAN प्लेटफॉर्म के ज़रिए उच्च गुणवत्ता वाले अनुवाद
इंटरनेट पर उपलब्ध डेटा, जिसे सावधानीपूर्वक क्यूरेट किया गया है
यह कार्य पिछले 4-5 वर्षों से जारी है। यह सभी डेटा अंग्रेज़ी की तुलना में कम है, लेकिन मिलाकर अच्छा काम कर रहा है।
प्र. क्या आपने बोली और लिखित भाषा के अंतर को भी ध्यान में रखा है?
उ. हाँ, उसमें मुख्य रूप से शब्दावली में बदलाव होता है, लेकिन पूर्ण रूप से भिन्न नहीं होतीं। यह एक सातत्य (continuum) है – बोली और लिखित रूप में, तथा एक भाषा से दूसरी में। जब आप कई भाषाओं को एक साथ प्रशिक्षण देते हैं, तो यह अंतर थोड़ा कम हो जाता है।
इस सातत्य का हम जितना अच्छा उपयोग करेंगे, उतना बेहतर ढंग से हम डेटा की कमी की भरपाई कर सकते हैं।
प्र. क्या सरकार के अन्य विभागों से भी डेटा लिया जा रहा है?
उ. हाँ, हम सरकार के विभिन्न विभागों से संपर्क कर रहे हैं। कई टीम के सदस्य देश की पुस्तकालयों तक भी जा चुके हैं। हमारी संयुक्त टीम में आईआईटी कानपुर, आईआईएम इंदौर जैसे संस्थान शामिल हैं। आईआईएम इंदौर ने कई स्थानीय पुस्तकालयों से डेटा इकट्ठा करने में बेहतरीन काम किया है।
प्र. क्या कुछ भाषाएं अन्य की तुलना में ज्यादा कठिन हैं?
उ. इस समय यह कहना जल्दबाज़ी होगी कि कोई एक भाषा अधिक कठिन है। कुल मिलाकर, भारतीय भाषाओं को अधिक ध्यान देने की आवश्यकता है।
प्र. क्या आप पूर्वोत्तर की भाषाओं पर भी काम कर रहे हैं?
उ. बोलचाल के स्तर (speech) पर तो हाँ, और टेक्स्ट स्तर पर भी काम धीरे-धीरे चल रहा है। असमिया (Assamese) को हमने शामिल किया है। हम Bodo जैसी भाषाओं पर भी काम कर रहे हैं, लेकिन टेक्स्ट डेटा कम है।
प्र. क्या भारतीय भाषाओं के LLMs कभी अंग्रेज़ी के स्तर तक पहुंच पाएंगे?
उ. हमें उम्मीद है कि हम केवल अलग-अलग भाषाओं के आधार पर नहीं, बल्कि उनके सामूहिक ज्ञान और संरचनात्मक समानता के बल पर अच्छा प्रदर्शन कर पाएंगे। हालाँकि, डेटा अब भी सबसे अहम कारक है।
भले ही सीमित डेटा हो, लेकिन भाषिक संरचनाओं का ज्ञान हमें काफी हद तक सहारा दे सकता है। हम देश के किसी भी व्यक्ति या संस्थान से जो भारतीय भाषा डेटा रखते हैं, अपील करते हैं कि वे उसे bharatgen@tihiitb.org पर भेजें – हम उचित समझौते के तहत इसे सुरक्षित और उपयोगी बना सकते हैं।