Apple ने आखिरकार टेक्स्ट और इमेज जेनरेशन के लिए अपना मल्टीमॉडल AI मॉडल MM1 लॉन्च कर दिया है

March 20, 2024

20

Apple ने आखिरकार टेक्स्ट और इमेज जेनरेशन के लिए अपना मल्टीमॉडल AI मॉडल MM1 लॉन्च कर दिया है। एआई मॉडल अपने बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग की बदौलत संदर्भ-आधारित भविष्यवाणियां भी कर सकता है

पिछले सप्ताह प्रस्तुत एक शोध पत्र के अनुसार, अपने आगामी एआई प्रोजेक्ट्स और मल्टीमॉडल एआई मॉडल के बारे में महीनों की अफवाहों और अटकलों के बाद, ऐप्पल शोधकर्ताओं ने एमएम1 नामक बड़े मल्टीमॉडल भाषा मॉडल का एक परिवार विकसित किया है, जो टेक्स्ट और विज़ुअल डेटा दोनों को संसाधित और उत्पन्न कर सकता है।

ऐप्पल की अनुसंधान प्रयोगशालाओं में अध्ययन का उद्देश्य विभिन्न वास्तुशिल्प घटकों, डेटा स्रोतों और प्रशिक्षण प्रक्रियाओं के सावधानीपूर्वक उपयोग के माध्यम से प्रदर्शनशील मल्टीमॉडल बड़े भाषा मॉडल (एमएलएलएम) का निर्माण करना था।

शोधकर्ताओं ने पाया कि छवि रिज़ॉल्यूशन और विज़ुअल एनकोडर की क्षमता का मॉडल प्रदर्शन पर सबसे अधिक प्रभाव पड़ा, जबकि विज़ुअल और टेक्स्ट डेटा के संयोजन की विशिष्ट विधि कम मायने रखती है।

उन्होंने यह भी पाया कि विभिन्न डेटा प्रकारों का सावधानीपूर्वक मिश्रण महत्वपूर्ण था, जिसमें इंटरलीव्ड छवि-पाठ दस्तावेज़ कुछ-शॉट सीखने में मदद करते थे, पारंपरिक कैप्शन वाली छवियां शून्य-शॉट प्रदर्शन को बढ़ावा देती थीं, और मजबूत भाषा समझ क्षमताओं को बनाए रखने वाले केवल-पाठ डेटा सहित।

एमएम1 अपने बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग की बदौलत संदर्भ-आधारित भविष्यवाणियां कर सकता है। यह MM1 को वस्तुओं की गिनती करने और कस्टम फ़ॉर्मेटिंग का पालन करने, छवियों के कुछ हिस्सों को संदर्भित करने और OCR निष्पादित करने, रोजमर्रा की वस्तुओं के बारे में सामान्य ज्ञान और शब्द ज्ञान प्रदर्शित करने और बुनियादी गणित कार्य करने की अनुमति देता है।

इन जानकारियों के आधार पर, टीम ने एमएम1 मॉडल परिवार विकसित किया, जिसमें तीन अरब से 30 अरब पैरामीटर शामिल थे, जिसमें घने और मिश्रण-विशेषज्ञ वेरिएंट शामिल थे। प्रशिक्षण को बढ़ाने के बाद, एमएम1 ने पूर्व-प्रशिक्षण के दौरान विभिन्न मल्टीमॉडल बेंचमार्क पर अत्याधुनिक परिणाम हासिल किए।

क्यूरेटेड 1 मिलियन उदाहरण डेटासेट पर आगे के निर्देश ट्यूनिंग के बाद, अंतिम एमएम1 मॉडल ने 12 मल्टीमॉडल कार्यों में प्रतिस्पर्धी प्रदर्शन का प्रदर्शन किया, जैसे कि दृश्य प्रश्न उत्तर और कैप्शनिंग। विशेष रूप से, एमएम1 मल्टी-इमेज रीजनिंग और कुछ-शॉट लर्निंग का प्रदर्शन कर सकता है, जो टीम के सावधानीपूर्वक मल्टीमॉडल प्री-ट्रेनिंग दृष्टिकोण द्वारा सक्षम महत्वपूर्ण क्षमताएं हैं।

यह पेपर प्राकृतिक भाषा पर्यवेक्षण से दृश्य अभ्यावेदन सीखने के लिए सीएलआईपी और पाठ निर्माण के लिए जीपीटी जैसे ऑटोरेग्रेसिव मॉडल जैसे क्षेत्रों में पिछले शोध पर आधारित है। हालाँकि, यह पहले विस्तृत अध्ययनों में से एक है जो विशेष रूप से बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग पर केंद्रित है।

शोधकर्ताओं को उम्मीद है कि उनकी अंतर्दृष्टि प्रगति में तेजी लाएगी, क्योंकि कथित तौर पर ऐप्पल आगामी आईफोन सॉफ्टवेयर में Google के जेमिनी जेनरेटर एआई मॉडल को एकीकृत करने के लिए बातचीत कर रहा है।

Source link

यूपीएससी सफलता की कहानी: स्टेथोस्कोप से सिविल सेवा तक, मिलिए सलोनी सिदाना से, जिन्होंने यूपीएससी रैंक 74 के साथ एक नई राह बनाई

Apple ने आखिरकार टेक्स्ट और इमेज जेनरेशन के लिए अपना मल्टीमॉडल AI मॉडल MM1 लॉन्च कर दिया है

Related Articles

भगदड़ मामले में पूछताछ के लिए हैदराबाद पुलिस ने अल्लू अर्जुन को बुलाया

क्रिसमस बाजार हमले में घायल हुए 7 भारतीयों के साथ निकट संपर्क में: जर्मनी में भारतीय दूतावास

चैटजीपीटी को एक नया व्हाट्सएप नंबर मिला है जिससे उपयोगकर्ता चैट कर सकते हैं, मोबाइल ऐप में मैप्स फीचर जोड़ा गया है

Latest Articles

भगदड़ मामले में पूछताछ के लिए हैदराबाद पुलिस ने अल्लू अर्जुन को बुलाया

क्रिसमस बाजार हमले में घायल हुए 7 भारतीयों के साथ निकट संपर्क में: जर्मनी में भारतीय दूतावास

चैटजीपीटी को एक नया व्हाट्सएप नंबर मिला है जिससे उपयोगकर्ता चैट कर सकते हैं, मोबाइल ऐप में मैप्स फीचर जोड़ा गया है

क्रिसमस 2024: रचनात्मक और विचारशील उपहार विचार जो निश्चित रूप से प्रभावित करेंगे

सीएम हिमंत ने कहा, असम में 22 बांग्लादेशी घुसपैठियों को पकड़ा गया, पीछे धकेला गया

पोपुलर