EleutherAI द्वारा संकलित डेटासेट में 48,000 से अधिक YouTube चैनलों की प्रतिलिपियाँ शामिल हैं और इसका उपयोग Apple, NVIDIA और Anthropic जैसी कंपनियों द्वारा किया गया था। अल्फाबेट के सीईओ सुंदर पिचाई ने कहा कि AI मॉडल को प्रशिक्षित करने के लिए YouTube से डेटा का उपयोग करना प्लेटफ़ॉर्म की सेवा की शर्तों का उल्लंघन है
और पढ़ें
प्रूफ़ न्यूज़ की एक हालिया जांच से पता चला है कि दुनिया की कुछ सबसे बड़ी टेक कंपनियों ने बिना अनुमति के अपने AI मॉडल को प्रशिक्षित करने के लिए 173,000 से ज़्यादा YouTube वीडियो की ट्रांसक्रिप्ट का इस्तेमाल किया। गैर-लाभकारी संगठन EleutherAI द्वारा संकलित डेटासेट में 48,000 से ज़्यादा YouTube चैनलों की ट्रांसक्रिप्ट शामिल हैं और इसका इस्तेमाल Apple, NVIDIA और Anthropic जैसी कंपनियों ने किया।
यह जांच एआई प्रौद्योगिकी के एक परेशान करने वाले पहलू पर प्रकाश डालती है: इसका अधिकांश विकास सामग्री निर्माताओं से उनकी सहमति या मुआवजे के बिना लिए गए डेटा पर निर्भर करता है।
डेटासेट में केवल वीडियो ट्रांसक्रिप्ट शामिल हैं, वास्तविक वीडियो या चित्र नहीं, जो मार्केस ब्राउनली और मिस्टरबीस्ट जैसे उल्लेखनीय रचनाकारों के साथ-साथ द न्यूयॉर्क टाइम्स, बीबीसी और एबीसी न्यूज जैसे प्रमुख समाचार आउटलेट्स से लिए गए हैं।
मार्केस ब्राउनली ने सोशल मीडिया पर चिंता व्यक्त करते हुए कहा कि उनका डेटा, अन्य लोगों के साथ, बिना उचित प्राधिकरण के यूट्यूब वीडियो से चुरा लिया गया है।
गूगल के प्रवक्ता के अनुसार यूट्यूब के सीईओ नील मोहन ने पहले कहा था कि एआई मॉडल को प्रशिक्षित करने के लिए यूट्यूब डेटा का उपयोग करना प्लेटफ़ॉर्म की सेवा शर्तों का उल्लंघन है। इसके बावजूद, Apple, NVIDIA, Anthropic और EleutherAI ने इस मामले पर टिप्पणी करने से इनकार कर दिया।
एआई मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा के स्रोतों के बारे में पारदर्शिता एआई कंपनियों के बीच कम रही है। हाल ही में, ऐप्पल की आलोचना इस बात के लिए की गई थी कि उसने ऐप्पल इंटेलिजेंस के लिए उपयोग किए जाने वाले प्रशिक्षण डेटा की उत्पत्ति का खुलासा नहीं किया है, जो कि इस साल लाखों डिवाइस पर लॉन्च होने वाला इसका आगामी जनरेटिव एआई प्लेटफ़ॉर्म है।
यूट्यूब, जो दुनिया में वीडियो के सबसे बड़े संग्रह के रूप में विख्यात है, न केवल प्रतिलिपियां बल्कि ऑडियो, वीडियो और चित्र भी उपलब्ध कराता है, जिससे यह एआई मॉडलों के प्रशिक्षण के लिए अत्यधिक वांछनीय डेटासेट बन जाता है।
इस साल की शुरुआत में, ओपनएआई की मुख्य प्रौद्योगिकी अधिकारी मीरा मुराती ने वॉल स्ट्रीट जर्नल द्वारा पूछे जाने पर इस बात पर चर्चा करने से परहेज किया कि क्या ओपनएआई के आगामी एआई वीडियो जेनरेशन टूल सोरा को प्रशिक्षित करने के लिए यूट्यूब वीडियो का इस्तेमाल किया गया था। मुराती ने उल्लेख किया कि इस्तेमाल किया गया डेटा सार्वजनिक रूप से उपलब्ध था या लाइसेंस प्राप्त था।
अल्फाबेट के सीईओ सुंदर पिचाई ने दोहराया कि एआई मॉडल को प्रशिक्षित करने के लिए यूट्यूब के डेटा का उपयोग करना प्लेटफॉर्म की सेवा शर्तों का उल्लंघन है।