कर्मचारी वर्चुअल मशीनों का उपयोग करके पूर्ण लंबाई वाले वीडियो डाउनलोड कर रहे हैं, जबकि वे YouTube द्वारा पहचाने जाने और ब्लॉक किए जाने से बच रहे हैं। अमेज़ॅन वेब सर्विसेज सर्वर पर प्रतिदिन लगभग 80 वर्षों की वीडियो सामग्री डाउनलोड करने के लिए VM का उपयोग किया जा रहा है
और पढ़ें
अग्रणी AI चिप निर्माता NVIDIA कथित तौर पर एक परिष्कृत AI मॉडल विकसित कर रहा है जो वीडियो सामग्री को समझने और बनाने में सक्षम है।
404 मीडिया द्वारा की गई एक विशेष जांच से पता चलता है कि NVIDIA ने अपने नए AI मॉडल, जिसका नाम “कॉसमॉस” है, को प्रशिक्षित करने के लिए नेटफ्लिक्स और यूट्यूब जैसे प्लेटफ़ॉर्म से भारी मात्रा में डेटा एकत्र किया है। इस दृष्टिकोण ने AI प्रशिक्षण के लिए कॉपीराइट सामग्री के उपयोग के बारे में कानूनी और नैतिक चिंताओं को जन्म दिया है।
NVIDIA की आंतरिक AI परियोजना
404 मीडिया द्वारा समीक्षा किए गए दस्तावेजों और NVIDIA कर्मचारियों के साथ चर्चा के अनुसार, कॉसमॉस परियोजना का उद्देश्य एक व्यापक वीडियो फाउंडेशन मॉडल बनाना है। यह मॉडल NVIDIA के उत्पाद लाइनअप के लिए महत्वपूर्ण विभिन्न अनुप्रयोगों को सक्षम करने के लिए प्रकाश परिवहन, भौतिकी और बुद्धिमत्ता के सिमुलेशन को एकीकृत करेगा। इन अनुप्रयोगों में ओमनीवर्स 3डी वर्ल्ड जनरेटर, सेल्फ-ड्राइविंग कार सिस्टम और डिजिटल मानव उत्पाद शामिल हैं।
ऐसा करने के लिए, NVIDIA ने कथित तौर पर अपने कर्मचारियों को ओपन-सोर्स YouTube वीडियो डाउनलोडर yt-dlp जैसे टूल का उपयोग करने का निर्देश दिया है। कर्मचारी कथित तौर पर पूर्ण लंबाई वाले वीडियो डाउनलोड करने के लिए वर्चुअल मशीनों का उपयोग कर रहे हैं, जबकि YouTube द्वारा पता लगाने और ब्लॉक किए जाने से बच रहे हैं। इसके अतिरिक्त, Amazon Web Services पर वर्चुअल मशीनों का उपयोग IP पतों को रिफ्रेश करने के लिए किया जाता है, जिससे प्रतिदिन लगभग 80 वर्षों की वीडियो सामग्री डाउनलोड की जा सकती है।
कानूनी और नैतिक चिंताएँ
NVIDIA के डेटा अधिग्रहण के तरीकों ने महत्वपूर्ण कानूनी और नैतिक सवाल खड़े कर दिए हैं। NVIDIA के एक पूर्व कर्मचारी ने खुलासा किया कि कंपनी ने नेटफ्लिक्स को भी निशाना बनाया, जबकि नेटफ्लिक्स की सेवा की शर्तों में इस तरह की स्क्रैपिंग गतिविधियों को स्पष्ट रूप से प्रतिबंधित किया गया था। यह दृष्टिकोण सार्वजनिक सामग्री से परे था, क्योंकि NVIDIA ने कथित तौर पर अकादमिक डेटासेट और अन्य संसाधनों का खनन किया जो केवल शोध उद्देश्यों के लिए थे।
स्लैक वार्तालाप में, मिंग-यू लियू जैसे परियोजना नेताओं ने प्रशिक्षण के लिए हॉलीवुड फिल्मों, डिस्कवरी चैनल वृत्तचित्रों और गेमिंग फुटेज सहित उच्च गुणवत्ता वाली सामग्री का उपयोग करने के लाभों पर चर्चा की। लियू ने हॉलीवुड फिल्मों की गेमिंग जैसी 3D स्थिरता और काल्पनिक सामग्री पर प्रकाश डाला, उनकी बेहतर गुणवत्ता पर ध्यान दिया। हालांकि, उन्होंने इस तरह की सामग्री का उपयोग करने की संवेदनशीलता को स्वीकार किया, स्टेबल डिफ्यूजन (एसडी) की रिलीज के बाद कलाकारों द्वारा उठाए गए समान चिंताओं का संदर्भ दिया।
इन चिंताओं के बावजूद, परियोजना प्रबंधकों ने कर्मचारियों को आश्वस्त किया कि उनके पास वेबसाइटों से डेटा स्क्रैप करने के लिए शीर्ष-स्तरीय स्वीकृति है, इसे “कार्यकारी निर्णय” करार दिया। NVIDIA ने अपने डेटा स्क्रैपिंग प्रथाओं का बचाव करते हुए कहा है कि वे “कॉपीराइट कानून के अक्षर और भावना के पूर्ण अनुपालन में हैं।”
एआई के विकास पर निहितार्थ
NVIDIA की महत्वाकांक्षी AI परियोजना उन्नत AI प्रौद्योगिकियों के विकास के आसपास चल रही चुनौतियों और जटिलताओं को रेखांकित करती है। जैसे-जैसे AI मॉडल परिष्कृत सामग्री को समझने और उत्पन्न करने में सक्षम होते जा रहे हैं, डेटा अधिग्रहण विधियों के नैतिक और कानूनी निहितार्थों पर सावधानीपूर्वक विचार किया जाना चाहिए। कॉसमॉस परियोजना तकनीकी नवाचार और बौद्धिक संपदा अधिकारों और नैतिक मानकों का सम्मान करने की आवश्यकता के बीच तनाव का उदाहरण है।
जबकि अत्याधुनिक AI मॉडल विकसित करने के लिए NVIDIA के प्रयास सराहनीय हैं, कंपनी की डेटा स्क्रैपिंग प्रथाएँ AI उद्योग में स्पष्ट दिशा-निर्देशों और विनियमों की आवश्यकता को उजागर करती हैं। जैसा कि NVIDIA AI तकनीक की सीमाओं को आगे बढ़ाना जारी रखता है, यह देखना बाकी है कि कॉसमॉस परियोजना से जुड़े कानूनी और नैतिक मुद्दों को कैसे संबोधित और हल किया जाएगा।