AI में तर्क शक्ति का विकास: DeepSeek-R1 ने मशीनों को ‘सोचने’ की नई दिशा दी

कृत्रिम बुद्धिमत्ता (AI) के क्षेत्र में लंबे समय से सबसे बड़ी चुनौतियों में से एक रही है — मशीनों को तर्क करना सिखाना। तथ्यों को याद करना या वाक्य पूरे करना जितना आसान है, तर्क करना उससे कहीं अधिक जटिल प्रक्रिया है। इसमें गलतियों से सीखना, रणनीति बदलना और सही उत्तर तक पहुंचने के लिए कदम-दर-कदम सोच शामिल होता है। हाल ही में DeepSeek-AI की टीम ने एक क्रांतिकारी प्रयोग के जरिए दिखाया कि AI को बिना किसी मानवीय उदाहरण के भी तर्क करना सिखाया जा सकता है।

Reinforcement Learning: जब AI खुद से सीखता है

DeepSeek की टीम ने GPT-4 जैसे मॉडलों की तरह पारंपरिक ‘सुपरवाइज्ड ट्रेनिंग’ नहीं अपनाई, बल्कि एक नई पद्धति ‘Group Relative Policy Optimisation’ के जरिए अपने मॉडल R1-Zero को गणित और प्रोग्रामिंग समस्याएं सुलझाने के लिए कहा। मॉडल को हर प्रयास में दो चीजें देनी होती थीं — एक ‘reasoning’ भाग और एक अंतिम उत्तर। केवल अंतिम उत्तर की शुद्धता के आधार पर इनाम दिया जाता था, यानी रास्ता कैसे तय हुआ, ये बताया नहीं गया।
इस ट्रायल एंड एरर प्रणाली में, सही उत्तर के रास्ते को मज़बूत किया गया, जबकि गलत रास्तों को हतोत्साहित किया गया। धीरे-धीरे, मॉडल ने स्वयं ही सोचने के तरीके अपनाए — जैसे “wait” या “let’s try again” जैसी वाक्य रचनाएं — जो यह दर्शाती हैं कि AI अब अपनी सोच पर पुनर्विचार कर रहा था।

R1-Zero से R1 तक: एक परिपक्व मॉडल का निर्माण

R1-Zero में शुरुआती कमियां थीं — जैसे भाषा मिश्रण और अस्पष्टता। टीम ने R1 मॉडल तैयार करते समय इन समस्याओं को ठीक किया: एक भाषा के उपयोग को प्रोत्साहित किया, बेहतर सुरक्षा सुनिश्चित की और सीमित मानव प्रशिक्षण भी शामिल किया।
AIME 2024 जैसे कठिन गणितीय परीक्षण में, R1-Zero की सटीकता शुरुआत में 15.6% थी, जो ट्रेनिंग के अंत तक बढ़कर 77.9% हुई। और परिष्कृत R1 मॉडल ने यह आंकड़ा 86.7% तक पहुंचा दिया — जो औसत मानव छात्र से बेहतर प्रदर्शन है।

खबर से जुड़े जीके तथ्य

  • DeepSeek-R1 मॉडल को reinforcement learning के माध्यम से तर्क करना सिखाया गया।
  • R1-Zero ने AIME 2024 परीक्षा में 86.7% तक की सटीकता हासिल की।
  • मॉडल ने “wait” जैसे शब्दों का उपयोग करना शुरू किया — संकेत कि वह सोच रहा था।
  • R1 ने AlpacaEval 2.0 और Arena-Hard जैसे मानकों पर क्रमश: 25% और 17% सुधार दिखाया।

Leave a Reply

Your email address will not be published. Required fields are marked *