गूगल डीपमाइंड ने भारतीय विज्ञान संस्थान (IISc) और ARTPARK (आर्टिफिशियल इंटेलिजेंस एंड रोबोटिक्स टेक्नोलॉजी पार्क) के सहयोग से प्रोजेक्ट वाणी लॉन्च किया है। यह प्रोजेक्ट देश भर से स्पीच डेटा इकट्ठा करने पर केंद्रित है, ताकि इसे ओपन-सोर्स मटेरियल के रूप में उपलब्ध कराया जा सके।
और पढ़ें
Google DeepMind की भारत इकाई मोरनी नामक एक परियोजना के साथ एक महत्वाकांक्षी चुनौती ले रही है, जिसका लक्ष्य एक ऐसा AI मॉडल विकसित करना है जो 125 भारतीय भाषाओं और बोलियों को समझ सके और उनका प्रतिनिधित्व कर सके। मल्टीमॉडल रिप्रेजेंटेशन फॉर इंडिया (मोरनी) के नाम से जाना जाने वाला यह प्रयास यह सुनिश्चित करने के बारे में है कि भारत भर में बोली जाने वाली विविध भाषाओं को डिजिटल दुनिया में शामिल किया जाए, ताकि यह सुनिश्चित हो सके कि सभी को सुनने का मौका मिले।
भारत एक ऐसा देश है जहाँ भाषाओं की संख्या बहुत ज़्यादा है – उनमें से 22 को आधिकारिक तौर पर मान्यता प्राप्त है, लेकिन 100 से ज़्यादा ऐसी भाषाएँ हैं जिनका लोग हर दिन इस्तेमाल करते हैं। Google DeepMind की टीम ने पाया कि एक अरब से ज़्यादा लोग लगभग 60 भारतीय भाषाएँ बोलते हैं और 125 से ज़्यादा ऐसी भाषाएँ हैं जिनके बोलने वालों की संख्या 100,000 से ज़्यादा है।
हालांकि, चुनौती यह है कि इनमें से कई भाषाएँ, खास तौर पर कम चर्चित भाषाएँ, डिजिटल रूप से बहुत ज़्यादा मौजूद नहीं हैं। उदाहरण के लिए, दुनिया की लगभग 10 प्रतिशत आबादी द्वारा बोली जाने वाली हिंदी, इंटरनेट पर मौजूद सामग्री का केवल 0.1 प्रतिशत हिस्सा है। इससे भी ज़्यादा चिंता की बात यह है कि इन 125 भाषाओं में से 73 के पास कोई डिजिटल डेटा उपलब्ध नहीं है।
इस समस्या को हल करने के लिए, गूगल डीपमाइंड ने भारतीय विज्ञान संस्थान (IISc) और ARTPARK (आर्टिफिशियल इंटेलिजेंस एंड रोबोटिक्स टेक्नोलॉजी पार्क) के सहयोग से प्रोजेक्ट वाणी शुरू किया है। यह परियोजना देश भर से भाषण डेटा एकत्र करने पर केंद्रित है, ताकि इसे ओपन-सोर्स सामग्री के रूप में उपलब्ध कराया जा सके। अपने पहले चरण में, प्रोजेक्ट वाणी ने 80 जिलों के 80,000 लोगों से 58 भाषाओं में 14,000 घंटे से अधिक भाषण डेटा एकत्र किया।
प्रोजेक्ट वाणी की घोषणा सबसे पहले दिसंबर 2022 में की गई थी, जिसका लक्ष्य भारत के सभी 773 जिलों से 154,000 घंटों का भाषण डेटा एकत्र करना और उसका प्रतिलेखन करना था। यह परियोजना अब अपने दूसरे चरण में है, जिसका उद्देश्य सभी राज्यों के 160 जिलों तक संग्रह का विस्तार करते हुए और भी अधिक क्षेत्र को कवर करना है। डेटा एकत्र करने का यह विशाल प्रयास एक ऐसा AI विकसित करने के लिए महत्वपूर्ण है जो वास्तव में भारत की भाषाई विविधता को दर्शाता हो।
प्रोजेक्ट मोरनी और प्रोजेक्ट वाणी पर Google DeepMind का काम सिर्फ़ तकनीक के बारे में नहीं है – यह सुनिश्चित करने के बारे में है कि हर भाषा, चाहे वह कितनी भी छोटी क्यों न हो, डिजिटल युग में अपनी जगह बनाए। इतनी विस्तृत भाषाओं पर ध्यान केंद्रित करके, यह परियोजना भारत की समृद्ध भाषाई विरासत को संरक्षित करने में मदद कर रही है, साथ ही हर दिन इन भाषाओं को बोलने वाले लोगों के लिए तकनीक को और अधिक सुलभ बना रही है। यह काम एक अधिक समावेशी डिजिटल दुनिया बनाने की दिशा में एक महत्वपूर्ण कदम है जहाँ हर किसी की आवाज़ सुनी जा सकती है।