प्रत्येक एलएलएम या बड़े भाषा मॉडल को पिछले से अधिक शक्तिशाली बनाने के प्रयास में, एआई कंपनियों ने लगभग सभी खुले इंटरनेट का उपयोग कर लिया है और डेटा खत्म हो रहा है। उन्हें अपने आगामी मॉडलों को एआई-जनरेटेड डेटा पर प्रशिक्षित करने के लिए मजबूर किया जा सकता है, जिसकी अपनी समस्याएं हैं
एआई कंपनियों को एक बड़ी चुनौती का सामना करना पड़ रहा है, एक ऐसी चुनौती जो बिग टेक द्वारा उनमें निवेश किए जा रहे सभी अरबों डॉलर को व्यर्थ कर देगी: उनका इंटरनेट खत्म हो रहा है।
वॉल स्ट्रीट जर्नल की रिपोर्ट के अनुसार, बड़े और अधिक उन्नत बड़े भाषा मॉडल विकसित करने की दौड़ में, एआई कंपनियों ने व्यावहारिक रूप से सभी खुले इंटरनेट का उपभोग कर लिया है, और अब डेटा के आसन्न अंत का सामना कर रहे हैं।
यह मुद्दा कुछ कंपनियों को प्रशिक्षण डेटा के लिए वैकल्पिक स्रोतों की तलाश करने के लिए प्रेरित कर रहा है, जैसे सार्वजनिक रूप से उपलब्ध वीडियो ट्रांसक्रिप्ट और एआई-जनरेटेड “सिंथेटिक डेटा” का निर्माण। हालाँकि, AI मॉडल को प्रशिक्षित करने के लिए AI-जनरेटेड डेटा का उपयोग करना अपने आप में एक समस्या है – इससे AI मॉडल के मतिभ्रम की संभावना अधिक हो जाती है।
इसके अलावा, सिंथेटिक डेटा के आसपास की चर्चाओं ने एआई-जनित डेटा पर एआई मॉडल के प्रशिक्षण के संभावित परिणामों के बारे में कुछ गंभीर चिंताएं पैदा की हैं। विशेषज्ञों का मानना है कि एआई-जनरेटेड डेटा पर बहुत अधिक भरोसा करने से डिजिटल “इनब्रीडिंग” होती है जिसके परिणामस्वरूप अंततः एआई मॉडल अपने आप ध्वस्त हो सकता है।
जबकि पूर्व मेटा और Google डीपमाइंड शोधकर्ता एरी मोरकोस द्वारा स्थापित डेटाोलॉजी जैसी संस्थाएं कम डेटा और संसाधनों के साथ विस्तृत मॉडल को प्रशिक्षित करने के तरीकों की खोज कर रही हैं, अधिकांश प्रमुख खिलाड़ी डेटा प्रशिक्षण के लिए कुछ अपरंपरागत और विवादास्पद दृष्टिकोण के साथ खेल रहे हैं।
उदाहरण के लिए, ओपनएआई, डब्ल्यूएसजे द्वारा उद्धृत सूत्रों के अनुसार सार्वजनिक रूप से उपलब्ध यूट्यूब वीडियो से ट्रांसक्रिप्शन का उपयोग करके अपने जीपीटी -5 मॉडल को प्रशिक्षित करने पर विचार कर रहा है, भले ही एआई कंपनी को सोरा को प्रशिक्षित करने के लिए ऐसे वीडियो का उपयोग करने के लिए आलोचना का सामना करना पड़ रहा है, और वीडियो द्वारा मुकदमों का सामना करना पड़ सकता है रचनाकार.
फिर भी, ओपनएआई और एंथ्रोपिक जैसी कंपनियां बेहतर सिंथेटिक डेटा विकसित करके इसे संबोधित करने की योजना बना रही हैं, हालांकि उनकी कार्यप्रणाली के बारे में विवरण अभी भी अस्पष्ट हैं।
पिछले कुछ समय से एआई कंपनियों को लेकर डर बना हुआ है। एपोच शोधकर्ता पाब्लो विलालोबोस जैसे कुछ लोगों की भविष्यवाणियों के बावजूद, यह अनुमान लगाते हुए कि एआई आने वाले वर्षों में अपने उपयोगी प्रशिक्षण डेटा को समाप्त कर सकता है, एक प्रचलित भावना है कि महत्वपूर्ण सफलताएं इन चिंताओं को कम कर सकती हैं।
हालाँकि, इस दुविधा का एक वैकल्पिक समाधान मौजूद है: एआई कंपनियां महत्वपूर्ण ऊर्जा खपत और कंप्यूटिंग चिप्स के लिए दुर्लभ-पृथ्वी खनिजों पर निर्भरता सहित अपने विकास से जुड़े पर्यावरणीय टोल को ध्यान में रखते हुए बड़े और अधिक उन्नत मॉडल को अपनाने से परहेज करने का विकल्प चुन सकती हैं।
(एजेंसियों से इनपुट के साथ)