10.1 C
New Delhi
Monday, January 13, 2025

एआई कंपनियों ने अपने मॉडलों को प्रशिक्षित करने के लिए पूरा इंटरनेट खर्च कर दिया है और अब उनका डेटा खत्म हो रहा है

प्रत्येक एलएलएम या बड़े भाषा मॉडल को पिछले से अधिक शक्तिशाली बनाने के प्रयास में, एआई कंपनियों ने लगभग सभी खुले इंटरनेट का उपयोग कर लिया है और डेटा खत्म हो रहा है। उन्हें अपने आगामी मॉडलों को एआई-जनरेटेड डेटा पर प्रशिक्षित करने के लिए मजबूर किया जा सकता है, जिसकी अपनी समस्याएं हैं

एआई कंपनियों को एक बड़ी चुनौती का सामना करना पड़ रहा है, एक ऐसी चुनौती जो बिग टेक द्वारा उनमें निवेश किए जा रहे सभी अरबों डॉलर को व्यर्थ कर देगी: उनका इंटरनेट खत्म हो रहा है।

वॉल स्ट्रीट जर्नल की रिपोर्ट के अनुसार, बड़े और अधिक उन्नत बड़े भाषा मॉडल विकसित करने की दौड़ में, एआई कंपनियों ने व्यावहारिक रूप से सभी खुले इंटरनेट का उपभोग कर लिया है, और अब डेटा के आसन्न अंत का सामना कर रहे हैं।

यह मुद्दा कुछ कंपनियों को प्रशिक्षण डेटा के लिए वैकल्पिक स्रोतों की तलाश करने के लिए प्रेरित कर रहा है, जैसे सार्वजनिक रूप से उपलब्ध वीडियो ट्रांसक्रिप्ट और एआई-जनरेटेड “सिंथेटिक डेटा” का निर्माण। हालाँकि, AI मॉडल को प्रशिक्षित करने के लिए AI-जनरेटेड डेटा का उपयोग करना अपने आप में एक समस्या है – इससे AI मॉडल के मतिभ्रम की संभावना अधिक हो जाती है।

इसके अलावा, सिंथेटिक डेटा के आसपास की चर्चाओं ने एआई-जनित डेटा पर एआई मॉडल के प्रशिक्षण के संभावित परिणामों के बारे में कुछ गंभीर चिंताएं पैदा की हैं। विशेषज्ञों का मानना ​​है कि एआई-जनरेटेड डेटा पर बहुत अधिक भरोसा करने से डिजिटल “इनब्रीडिंग” होती है जिसके परिणामस्वरूप अंततः एआई मॉडल अपने आप ध्वस्त हो सकता है।

जबकि पूर्व मेटा और Google डीपमाइंड शोधकर्ता एरी मोरकोस द्वारा स्थापित डेटाोलॉजी जैसी संस्थाएं कम डेटा और संसाधनों के साथ विस्तृत मॉडल को प्रशिक्षित करने के तरीकों की खोज कर रही हैं, अधिकांश प्रमुख खिलाड़ी डेटा प्रशिक्षण के लिए कुछ अपरंपरागत और विवादास्पद दृष्टिकोण के साथ खेल रहे हैं।

उदाहरण के लिए, ओपनएआई, डब्ल्यूएसजे द्वारा उद्धृत सूत्रों के अनुसार सार्वजनिक रूप से उपलब्ध यूट्यूब वीडियो से ट्रांसक्रिप्शन का उपयोग करके अपने जीपीटी -5 मॉडल को प्रशिक्षित करने पर विचार कर रहा है, भले ही एआई कंपनी को सोरा को प्रशिक्षित करने के लिए ऐसे वीडियो का उपयोग करने के लिए आलोचना का सामना करना पड़ रहा है, और वीडियो द्वारा मुकदमों का सामना करना पड़ सकता है रचनाकार.

फिर भी, ओपनएआई और एंथ्रोपिक जैसी कंपनियां बेहतर सिंथेटिक डेटा विकसित करके इसे संबोधित करने की योजना बना रही हैं, हालांकि उनकी कार्यप्रणाली के बारे में विवरण अभी भी अस्पष्ट हैं।

पिछले कुछ समय से एआई कंपनियों को लेकर डर बना हुआ है। एपोच शोधकर्ता पाब्लो विलालोबोस जैसे कुछ लोगों की भविष्यवाणियों के बावजूद, यह अनुमान लगाते हुए कि एआई आने वाले वर्षों में अपने उपयोगी प्रशिक्षण डेटा को समाप्त कर सकता है, एक प्रचलित भावना है कि महत्वपूर्ण सफलताएं इन चिंताओं को कम कर सकती हैं।

हालाँकि, इस दुविधा का एक वैकल्पिक समाधान मौजूद है: एआई कंपनियां महत्वपूर्ण ऊर्जा खपत और कंप्यूटिंग चिप्स के लिए दुर्लभ-पृथ्वी खनिजों पर निर्भरता सहित अपने विकास से जुड़े पर्यावरणीय टोल को ध्यान में रखते हुए बड़े और अधिक उन्नत मॉडल को अपनाने से परहेज करने का विकल्प चुन सकती हैं।

(एजेंसियों से इनपुट के साथ)

Source link

Related Articles

Latest Articles