[ad_1]
ओपनई के संभावित प्रतिद्वंद्वी के रूप में देखी जाने वाली एक नई एआई कंपनी दीपसेक ने सोशल मीडिया में बड़े पैमाने पर सफलता हासिल की है, जो वैश्विक शेयर बाजारों को एक उन्माद में भेजती है। हालांकि, बर्नस्टीन की एक हालिया रिपोर्ट ने चेतावनी दी कि जबकि कंपनी की उपलब्धियां प्रभावशाली हैं, केवल $ 5 मिलियन के लिए Openai के बराबर AI प्रणाली के निर्माण के दावे सच नहीं हैं।
रिपोर्ट में कहा गया है कि दावा भ्रामक है और बड़ी तस्वीर को प्रतिबिंबित नहीं करता है।
बर्नस्टीन ने कहा, “हम मानते हैं कि दीपसेक ने” यूएसडी 5 एम के लिए ओपनई का निर्माण नहीं किया “; मॉडल शानदार दिखते हैं, लेकिन हमें नहीं लगता कि वे चमत्कार हैं; और सप्ताहांत में ट्विटर-वर्स पैनिक ओवरब्लाउन लगता है”।
रिपोर्ट में कहा गया है कि दीपसेक ने दो मुख्य एआई मॉडल विकसित किए: द डीपसेक-वी 3 और डीपसेक आर 1। V3 मॉडल, एक बड़ी भाषा मॉडल, एक मिश्रण-के-विशेषज्ञों (MOE) वास्तुकला का उपयोग करता है, जो पारंपरिक बड़े मॉडलों की तुलना में कम कंप्यूटिंग संसाधनों का उपयोग करते हुए उच्च प्रदर्शन को प्राप्त करने के लिए कई छोटे मॉडल को जोड़ती है।
दूसरी ओर, V3 मॉडल 671 बिलियन पैरामीटर का दावा करता है, किसी भी समय 37 बिलियन सक्रिय के साथ, और मेमोरी के उपयोग को कम करने के लिए मल्टी-हेड लेटेंट ध्यान (MHLA) जैसे नवाचारों के साथ शामिल किया गया है और अधिक दक्षता के लिए FP8 कम्प्यूटेशन के साथ मिश्रित-सटीक प्रशिक्षण को कम करता है। ।
क्या यह वास्तव में $ 5 मिलियन था?
V3 मॉडल के प्रशिक्षण में दो महीने की अवधि में 2,048 NVIDIA H800 GPU का एक क्लस्टर शामिल था, जो लगभग 5.5 मिलियन GPU घंटे तक है।
जबकि कुछ अनुमानों ने प्रशिक्षण की लागत को लगभग $ 5 मिलियन में डाल दिया, रिपोर्ट ने उजागर किया कि यह आंकड़ा केवल कम्प्यूटेशनल संसाधनों पर विचार करता है, जिससे अनुसंधान, प्रयोग और अन्य विकासात्मक खर्चों से संबंधित महत्वपूर्ण लागतें निकलती हैं।
दीपसेक आर 1 मॉडल तर्क क्षमताओं को बढ़ाने के लिए सुदृढीकरण सीखने (आरएल) और अन्य तकनीकों का उपयोग करके वी 3 की नींव पर बनाता है। R1 मॉडल ने तर्क कार्यों में Openai के मॉडल के साथ प्रतिस्पर्धी रूप से प्रदर्शन किया है। हालांकि, बर्नस्टीन ने बताया कि आर 1 मॉडल को विकसित करने के लिए आवश्यक अतिरिक्त संसाधन पर्याप्त थे, हालांकि डीपसेक के शोध पत्र में विस्तृत नहीं थे।
प्रचार पर टिप्पणी करते हुए, बर्नस्टीन ने कहा कि दीपसेक के मॉडल प्रभावशाली हैं।
उदाहरण के लिए, V3 मॉडल कम्प्यूटेशनल संसाधनों के एक अंश का उपभोग करते हुए भाषा, कोडिंग और गणित में अन्य बड़े मॉडलों की तुलना में बेहतर प्रदर्शन करता है। वी 3 मॉडल को पूर्व-प्रशिक्षण के लिए केवल 2.7 मिलियन जीपीयू घंटे, या कुछ प्रमुख मॉडलों के लिए आवश्यक गणना संसाधनों का केवल 9 प्रतिशत आवश्यक था।
अंत में, जबकि दीपसेक की प्रगति उल्लेखनीय है, रिपोर्ट ने अतिरंजित दावों के सामने सावधानी का आग्रह किया। जबकि कंपनी का काम ग्राउंडब्रेकिंग है, एक बनाने की धारणा ओपनई प्रतियोगी केवल $ 5 मिलियन के लिए झूठा प्रतीत होता है।
[ad_2]
Source link
Comments