चैट जीपीटी को कैसे ट्रेन किया जाता है?

कैसे चैट जीपीटी प्रशिक्षित होता है-768x435-718x.jpg

यदि आप ChatGPT से परिचित हैं, तो आपने सुना होगा कि इसे एक विस्तृत डेटा-संचय पर ट्रेन होता है। लेकिन यह कौन सी डेटा होती है? इस आलेख में, हम विस्तृत रूप से जानेंगे कि ChatGPT का ट्रेनिंग कैसे होता है?"

ChatGPT एक पूर्व-प्रशिक्षित भाषा मॉडल है जो निर्देशित और पुनरावृत्ति शिक्षण तकनीकों के एक संयोजन के माध्यम से समायोजित किया गया है। ChatGPT के प्रशिक्षण की प्रक्रिया मॉडल में बड़ी मात्रा में पाठ डेटा इनपुट करने और इसके पैरामीटरों को समायोजित करने के साथ-साथ उस तकनीक को शामिल किया गया था जिससे यह प्रशिक्षण कोर्पस में दिए गए पाठ की तरह का पाठ उत्पन्न कर सके।

इस प्रक्रिया के लिए असुपरवाइज्ड लर्निंग दृष्टिकोण का उपयोग किया गया था, जिसका अर्थ है कि मॉडल को उसके द्वारा उत्पन्न किए गए टेक्स्ट सही या गलत होने के बारे में प्रत्याख्यान नहीं दिया गया था। इसके बजाय, मॉडल अपने parameters को समायोजित करता है जो प्रशिक्षण corpus में दिए गए टेक्स्ट के समान होने की संभावना होती है।

GPT-3, ChatGPT-3 के मूल मॉडल, 175 बिलियन parameters और 2048-token-long context के साथ सबसे बड़े भाषा मॉडलों में से एक है। यह Common Crawl, WebText2, Books1/2, Wikipedia in English और CSS, JSX, Python और अन्य प्रोग्रामिंग भाषाओं में code के उदाहरण से सयुक्त अरबों शब्दों पर ट्रेन है।

जीपीटी-3 के लिए इस्तेमाल किया गया ट्रेनिंग मेथड जनरेटिव प्रीट्रेनिंग है, जिसका अर्थ है कि यह इनपुट सेंटेंस में अगले टोकन या शब्द की पूर्वानुमानी करने के लिए ट्रेन होता है।

बेस्ट चैट जीपीटी विकल्प

निरीक्षण अधिगम

चैटजीपीटी मॉडल मानव ट्रेनरों द्वारा निर्देशित सीखने की एक प्रक्रिया द्वारा फाइन-ट्यून किया गया था। ये ट्रेनर वार्तालाप में संलग्न होते हुए उपयोगकर्ता और AI सहायक दोनों की भूमिका निभाते थे।

उन्हें मॉडल से सुझाव दिए गए थे जो उनके उत्तर तैयार करने में उन्हें मार्गदर्शन करने के लिए थे, जो फिर इंस्ट्रक्टजीपीटी डेटासेट के साथ मिलाए गए थे जो वार्तालाप प्रारूप में बदला गया था।

पुनरूत्थान अभिक्षमता

मॉडल को प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (पीपीओ) का उपयोग करके रीइंफोर्समेंट लर्निंग के माध्यम से और भी बेहतर बनाया गया। मानव प्रशिक्षकों ने पिछली बातचीत से मॉडल द्वारा उत्पन्न किए जाने वाले प्रतिक्रियाओं का मूल्यांकन किया और उन मूल्यांकनों का उपयोग बदलाव मॉडल विकसित करने के लिए किया गया। फिर मॉडल को इन बदलाव मॉडलों के आधार पर फाइन-ट्यून किया गया।

बेहतर प्रदर्शन प्राप्त करने के लिए कुछ बार फाइन-ट्यूनिंग की प्रक्रिया की गई थी। PPO एल्गोरिथम अन्य एल्गोरिथमों की तुलना में लागत-प्रभावी हैं और उनमें तेज प्रदर्शन होता है, जिससे उन्हें इस प्रक्रिया के लिए आदर्श बनाया जाता है।

OpenAI वे उपयोगकर्ताओं से जानकारी इकट्ठा करता रहता है जो ChatGPT के साथ इंटरैक्ट करते हैं, जो फिर आगे चलकर मॉडल का सुधार और उन्नति करने के लिए उपयोग की जा सकती है।

उपयोगकर्ताओं के पास upvoting या downvoting करके ChatGPT के जवाबों पर वोट करने का विकल्प होता है, और उन्हें अतिरिक्त प्रतिक्रिया देने का भी मौका मिलता है। यह डेटा मॉडल के प्रदर्शन को बेहतर बनाने और मानव जैसे टेक्स्ट को जनरेट करने में इसे अधिक संवेदनशील बनाने के लिए उपयोग किया जाता है।

मॉडल ट्रेन करने के लिए उपयोग किए गए डेटा

चैटजीपीटी-3 एक भाषा मॉडल है जो जीपीटी - 3.5 सीरीज से फाइन-ट्यून हुआ है, जो एक एज्युरे एआई सुपरकंप्यूटिंग इंफ्रास्ट्रक्चर पर ट्रेन हुआ था। यह इंटरनेट से स्क्रेप किये गए एक बड़े मात्रा के पाठ से ट्रेन हुआ था, जिसमें पुस्तकें, चैट फोरम, लेख, वेबसाइट, एकेडमिक पेपर्स, कोड और अन्य स्रोत शामिल हैं।

चैट जीपीटी-३ के प्रशिक्षण के लिए उपयोग किए गए पाठ डेटा का संग्रह 45 टेराबाइट से अधिक था, जो मॉडल की क्षमता में सहायक है कि वह एक पत्रकार या लेखक द्वारा उत्पन्न किए गए पाठ की तरह के पाठ उत्पन्न कर सके।

संबंधित आलेख

और देखें >>