Apple ने आखिरकार टेक्स्ट और इमेज जेनरेशन के लिए अपना मल्टीमॉडल AI मॉडल MM1 लॉन्च कर दिया है। एआई मॉडल अपने बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग की बदौलत संदर्भ-आधारित भविष्यवाणियां भी कर सकता है
पिछले सप्ताह प्रस्तुत एक शोध पत्र के अनुसार, अपने आगामी एआई प्रोजेक्ट्स और मल्टीमॉडल एआई मॉडल के बारे में महीनों की अफवाहों और अटकलों के बाद, ऐप्पल शोधकर्ताओं ने एमएम1 नामक बड़े मल्टीमॉडल भाषा मॉडल का एक परिवार विकसित किया है, जो टेक्स्ट और विज़ुअल डेटा दोनों को संसाधित और उत्पन्न कर सकता है।
ऐप्पल की अनुसंधान प्रयोगशालाओं में अध्ययन का उद्देश्य विभिन्न वास्तुशिल्प घटकों, डेटा स्रोतों और प्रशिक्षण प्रक्रियाओं के सावधानीपूर्वक उपयोग के माध्यम से प्रदर्शनशील मल्टीमॉडल बड़े भाषा मॉडल (एमएलएलएम) का निर्माण करना था।
शोधकर्ताओं ने पाया कि छवि रिज़ॉल्यूशन और विज़ुअल एनकोडर की क्षमता का मॉडल प्रदर्शन पर सबसे अधिक प्रभाव पड़ा, जबकि विज़ुअल और टेक्स्ट डेटा के संयोजन की विशिष्ट विधि कम मायने रखती है।
उन्होंने यह भी पाया कि विभिन्न डेटा प्रकारों का सावधानीपूर्वक मिश्रण महत्वपूर्ण था, जिसमें इंटरलीव्ड छवि-पाठ दस्तावेज़ कुछ-शॉट सीखने में मदद करते थे, पारंपरिक कैप्शन वाली छवियां शून्य-शॉट प्रदर्शन को बढ़ावा देती थीं, और मजबूत भाषा समझ क्षमताओं को बनाए रखने वाले केवल-पाठ डेटा सहित।
एमएम1 अपने बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग की बदौलत संदर्भ-आधारित भविष्यवाणियां कर सकता है। यह MM1 को वस्तुओं की गिनती करने और कस्टम फ़ॉर्मेटिंग का पालन करने, छवियों के कुछ हिस्सों को संदर्भित करने और OCR निष्पादित करने, रोजमर्रा की वस्तुओं के बारे में सामान्य ज्ञान और शब्द ज्ञान प्रदर्शित करने और बुनियादी गणित कार्य करने की अनुमति देता है।
इन जानकारियों के आधार पर, टीम ने एमएम1 मॉडल परिवार विकसित किया, जिसमें तीन अरब से 30 अरब पैरामीटर शामिल थे, जिसमें घने और मिश्रण-विशेषज्ञ वेरिएंट शामिल थे। प्रशिक्षण को बढ़ाने के बाद, एमएम1 ने पूर्व-प्रशिक्षण के दौरान विभिन्न मल्टीमॉडल बेंचमार्क पर अत्याधुनिक परिणाम हासिल किए।
क्यूरेटेड 1 मिलियन उदाहरण डेटासेट पर आगे के निर्देश ट्यूनिंग के बाद, अंतिम एमएम1 मॉडल ने 12 मल्टीमॉडल कार्यों में प्रतिस्पर्धी प्रदर्शन का प्रदर्शन किया, जैसे कि दृश्य प्रश्न उत्तर और कैप्शनिंग। विशेष रूप से, एमएम1 मल्टी-इमेज रीजनिंग और कुछ-शॉट लर्निंग का प्रदर्शन कर सकता है, जो टीम के सावधानीपूर्वक मल्टीमॉडल प्री-ट्रेनिंग दृष्टिकोण द्वारा सक्षम महत्वपूर्ण क्षमताएं हैं।
यह पेपर प्राकृतिक भाषा पर्यवेक्षण से दृश्य अभ्यावेदन सीखने के लिए सीएलआईपी और पाठ निर्माण के लिए जीपीटी जैसे ऑटोरेग्रेसिव मॉडल जैसे क्षेत्रों में पिछले शोध पर आधारित है। हालाँकि, यह पहले विस्तृत अध्ययनों में से एक है जो विशेष रूप से बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग पर केंद्रित है।
शोधकर्ताओं को उम्मीद है कि उनकी अंतर्दृष्टि प्रगति में तेजी लाएगी, क्योंकि कथित तौर पर ऐप्पल आगामी आईफोन सॉफ्टवेयर में Google के जेमिनी जेनरेटर एआई मॉडल को एकीकृत करने के लिए बातचीत कर रहा है।