AI में तर्क शक्ति का विकास: DeepSeek-R1 ने मशीनों को ‘सोचने’ की नई दिशा दी

AI में तर्क शक्ति का विकास: DeepSeek-R1 ने मशीनों को ‘सोचने’ की नई दिशा दी

कृत्रिम बुद्धिमत्ता (AI) के क्षेत्र में लंबे समय से सबसे बड़ी चुनौतियों में से एक रही है — मशीनों को तर्क करना सिखाना। तथ्यों को याद करना या वाक्य पूरे करना जितना आसान है, तर्क करना उससे कहीं अधिक जटिल प्रक्रिया है। इसमें गलतियों से सीखना, रणनीति बदलना और सही उत्तर तक पहुंचने के लिए कदम-दर-कदम सोच शामिल होता है। हाल ही में DeepSeek-AI की टीम ने एक क्रांतिकारी प्रयोग के जरिए दिखाया कि AI को बिना किसी मानवीय उदाहरण के भी तर्क करना सिखाया जा सकता है।

Reinforcement Learning: जब AI खुद से सीखता है

DeepSeek की टीम ने GPT-4 जैसे मॉडलों की तरह पारंपरिक ‘सुपरवाइज्ड ट्रेनिंग’ नहीं अपनाई, बल्कि एक नई पद्धति ‘Group Relative Policy Optimisation’ के जरिए अपने मॉडल R1-Zero को गणित और प्रोग्रामिंग समस्याएं सुलझाने के लिए कहा। मॉडल को हर प्रयास में दो चीजें देनी होती थीं — एक ‘reasoning’ भाग और एक अंतिम उत्तर। केवल अंतिम उत्तर की शुद्धता के आधार पर इनाम दिया जाता था, यानी रास्ता कैसे तय हुआ, ये बताया नहीं गया।
इस ट्रायल एंड एरर प्रणाली में, सही उत्तर के रास्ते को मज़बूत किया गया, जबकि गलत रास्तों को हतोत्साहित किया गया। धीरे-धीरे, मॉडल ने स्वयं ही सोचने के तरीके अपनाए — जैसे “wait” या “let’s try again” जैसी वाक्य रचनाएं — जो यह दर्शाती हैं कि AI अब अपनी सोच पर पुनर्विचार कर रहा था।

R1-Zero से R1 तक: एक परिपक्व मॉडल का निर्माण

R1-Zero में शुरुआती कमियां थीं — जैसे भाषा मिश्रण और अस्पष्टता। टीम ने R1 मॉडल तैयार करते समय इन समस्याओं को ठीक किया: एक भाषा के उपयोग को प्रोत्साहित किया, बेहतर सुरक्षा सुनिश्चित की और सीमित मानव प्रशिक्षण भी शामिल किया।
AIME 2024 जैसे कठिन गणितीय परीक्षण में, R1-Zero की सटीकता शुरुआत में 15.6% थी, जो ट्रेनिंग के अंत तक बढ़कर 77.9% हुई। और परिष्कृत R1 मॉडल ने यह आंकड़ा 86.7% तक पहुंचा दिया — जो औसत मानव छात्र से बेहतर प्रदर्शन है।

खबर से जुड़े जीके तथ्य

  • DeepSeek-R1 मॉडल को reinforcement learning के माध्यम से तर्क करना सिखाया गया।
  • R1-Zero ने AIME 2024 परीक्षा में 86.7% तक की सटीकता हासिल की।
  • मॉडल ने “wait” जैसे शब्दों का उपयोग करना शुरू किया — संकेत कि वह सोच रहा था।
  • R1 ने AlpacaEval 2.0 और Arena-Hard जैसे मानकों पर क्रमश: 25% और 17% सुधार दिखाया।
Originally written on September 20, 2025 and last modified on September 20, 2025.

Leave a Reply

Your email address will not be published. Required fields are marked *