प्रमुख एआई कंपनियों के पास उच्च गुणवत्ता वाला ऑर्गेनिक डेटा खत्म हो रहा है। परिणामस्वरूप वे अपने एआई मॉडल को प्रशिक्षित करने के लिए सिंथेटिक या नकली डेटा पर अधिक से अधिक निर्भर हो रहे हैं। हालाँकि यह एक गंभीर समस्या के लिए एक बहुत ही अजीब समाधान प्रतीत हो सकता है,
और पढ़ें
पिछले कुछ समय से एआई कंपनियां अपने सिस्टम को प्रशिक्षित करने के लिए उच्च गुणवत्ता वाले डेटा प्राप्त करने की चुनौती से जूझ रही हैं, जिससे उन्हें सिंथेटिक डेटा जैसे वैकल्पिक तरीकों का पता लगाने में मदद मिल रही है।
परंपरागत रूप से, एआई सिस्टम उपयोगकर्ता के प्रश्नों को समझने और प्रतिक्रिया उत्पन्न करने के लिए लेखों, पुस्तकों और ऑनलाइन टिप्पणियों जैसे विभिन्न स्रोतों से निकाले गए बड़ी मात्रा में डेटा पर निर्भर करता है। हालाँकि, इंटरनेट पर ऐसे उच्च-गुणवत्ता वाले डेटा की उपलब्धता सीमित है, जिसने एआई कंपनियों को वैकल्पिक समाधान खोजने के लिए प्रेरित किया है।
सिंथेटिक डेटा, अनिवार्य रूप से एआई सिस्टम द्वारा उत्पन्न कृत्रिम डेटा, इस मुद्दे के समाधान के लिए एक आशाजनक दृष्टिकोण के रूप में उभर रहा है। अपने स्वयं के एआई मॉडल का लाभ उठाकर, तकनीकी कंपनियां अपने सिस्टम के भविष्य के पुनरावृत्तियों को प्रशिक्षित करने के लिए सिंथेटिक डेटा का उत्पादन कर रही हैं। एंथ्रोपिक सीईओ डारियो अमोदेई द्वारा “अनंत डेटा जेनरेशन इंजन” करार दी गई इस पद्धति का उद्देश्य पारंपरिक डेटा अधिग्रहण विधियों से जुड़ी कानूनी, नैतिक और गोपनीयता संबंधी चिंताओं को कम करना है।
हालाँकि कंप्यूटिंग में सिंथेटिक डेटा कोई नई अवधारणा नहीं है, लेकिन जेनरेटिव एआई के उदय ने बड़े पैमाने पर उच्च गुणवत्ता वाले सिंथेटिक डेटा के निर्माण की सुविधा प्रदान की है। मेटा, गूगल और माइक्रोसॉफ्ट जैसी प्रमुख एआई कंपनियों ने चैटबॉट और भाषा प्रोसेसर सहित उन्नत मॉडल विकसित करने के लिए सिंथेटिक डेटा का उपयोग करना शुरू कर दिया है।
उदाहरण के लिए, एंथ्रोपिक ने अपने चैटबॉट, क्लाउड को शक्ति प्रदान करने के लिए सिंथेटिक डेटा का उपयोग किया, जबकि Google डीपमाइंड ने जटिल ज्यामिति समस्याओं को हल करने में सक्षम मॉडल को प्रशिक्षित करने के लिए इस पद्धति का उपयोग किया। इस बीच, माइक्रोसॉफ्ट ने सिंथेटिक डेटा का उपयोग करके विकसित अपने छोटे भाषा मॉडल को सार्वजनिक रूप से उपलब्ध कराया है।
सिंथेटिक डेटा उत्पन्न करने की प्रक्रिया में सामग्री बनाने के लिए एआई मॉडल के लिए विशिष्ट पैरामीटर और संकेत सेट करना शामिल है। उदाहरण के लिए, माइक्रोसॉफ्ट के शोधकर्ताओं ने एक एआई मॉडल को शब्दों की पूर्वनिर्धारित सूची का उपयोग करके बच्चों की कहानियां तैयार करने का काम सौंपा। यह दृष्टिकोण एआई सिस्टम को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा पर अधिक सटीक नियंत्रण की अनुमति देता है।
हालाँकि, कुछ एआई विशेषज्ञों ने सिंथेटिक डेटा से जुड़े जोखिमों के बारे में चिंता जताई है। प्रमुख विश्वविद्यालयों के शोधकर्ताओं ने “मॉडल पतन” के उदाहरण देखे, जहां सिंथेटिक डेटा पर प्रशिक्षित एआई मॉडल ने अपरिवर्तनीय दोष प्रदर्शित किए और निरर्थक आउटपुट उत्पन्न किए। इसके अतिरिक्त, ऐसी चिंताएँ हैं कि सिंथेटिक डेटा डेटासेट में पूर्वाग्रह और विषाक्तता को बढ़ा सकता है।
इन चुनौतियों के बावजूद, समर्थकों का तर्क है कि सिंथेटिक डेटा, जब ठीक से लागू किया जाता है, तो सटीक और विश्वसनीय मॉडल प्राप्त कर सकता है। बहरहाल, सिंथेटिक डेटा तैयार करने की सर्वोत्तम प्रथाओं पर कोई सहमति नहीं है, जो इस क्षेत्र में आगे के शोध और विकास की आवश्यकता पर प्रकाश डालता है।
इसके अलावा, सिंथेटिक डेटा पर निर्भरता को लेकर एक दार्शनिक बहस चल रही है, जिसमें एआई इंटेलिजेंस की प्रकृति और मानव समझ से इसके संभावित विचलन के बारे में सवाल उठ रहे हैं। स्टैनफोर्ड विश्वविद्यालय के प्रोफेसर पर्सी लियांग ने बड़े पैमाने पर सिंथेटिक डेटा बनाने की जटिलता पर प्रकाश डालते हुए डेटा उत्पादन प्रक्रिया में वास्तविक मानव बुद्धि को शामिल करने के महत्व पर जोर दिया।
जबकि सिंथेटिक डेटा एआई कंपनियों के सामने आने वाली डेटा गुणवत्ता दुविधा का एक आशाजनक समाधान हो सकता है, इसके कार्यान्वयन के लिए नैतिक, तकनीकी और दार्शनिक निहितार्थों पर सावधानीपूर्वक विचार करने की आवश्यकता है। जैसे-जैसे क्षेत्र का विकास जारी है, एआई विकास के लिए सिंथेटिक डेटा की पूरी क्षमता का दोहन करने में एआई शोधकर्ताओं और डोमेन विशेषज्ञों के बीच सहयोग महत्वपूर्ण होगा।
(एजेंसियों से इनपुट के साथ)