करेंट अफेयर्स

📝 करेंट अफेयर्स 2025-26

राज्य स्तरीय PCS परीक्षाओं हेतु सामान्य ज्ञान

सामान्य अध्ययन विषयवार MCQs

AI में तर्क शक्ति का विकास: DeepSeek-R1 ने मशीनों को ‘सोचने’ की नई दिशा दी

कृत्रिम बुद्धिमत्ता (AI) के क्षेत्र में लंबे समय से सबसे बड़ी चुनौतियों में से एक रही है — मशीनों को तर्क करना सिखाना। तथ्यों को याद करना या वाक्य पूरे करना जितना आसान है, तर्क करना उससे कहीं अधिक जटिल प्रक्रिया है। इसमें गलतियों से सीखना, रणनीति बदलना और सही उत्तर तक पहुंचने के लिए कदम-दर-कदम सोच शामिल होता है। हाल ही में DeepSeek-AI की टीम ने एक क्रांतिकारी प्रयोग के जरिए दिखाया कि AI को बिना किसी मानवीय उदाहरण के भी तर्क करना सिखाया जा सकता है।

Reinforcement Learning: जब AI खुद से सीखता है

DeepSeek की टीम ने GPT-4 जैसे मॉडलों की तरह पारंपरिक ‘सुपरवाइज्ड ट्रेनिंग’ नहीं अपनाई, बल्कि एक नई पद्धति ‘Group Relative Policy Optimisation’ के जरिए अपने मॉडल R1-Zero को गणित और प्रोग्रामिंग समस्याएं सुलझाने के लिए कहा। मॉडल को हर प्रयास में दो चीजें देनी होती थीं — एक ‘reasoning’ भाग और एक अंतिम उत्तर। केवल अंतिम उत्तर की शुद्धता के आधार पर इनाम दिया जाता था, यानी रास्ता कैसे तय हुआ, ये बताया नहीं गया।
इस ट्रायल एंड एरर प्रणाली में, सही उत्तर के रास्ते को मज़बूत किया गया, जबकि गलत रास्तों को हतोत्साहित किया गया। धीरे-धीरे, मॉडल ने स्वयं ही सोचने के तरीके अपनाए — जैसे “wait” या “let’s try again” जैसी वाक्य रचनाएं — जो यह दर्शाती हैं कि AI अब अपनी सोच पर पुनर्विचार कर रहा था।

R1-Zero से R1 तक: एक परिपक्व मॉडल का निर्माण

R1-Zero में शुरुआती कमियां थीं — जैसे भाषा मिश्रण और अस्पष्टता। टीम ने R1 मॉडल तैयार करते समय इन समस्याओं को ठीक किया: एक भाषा के उपयोग को प्रोत्साहित किया, बेहतर सुरक्षा सुनिश्चित की और सीमित मानव प्रशिक्षण भी शामिल किया।
AIME 2024 जैसे कठिन गणितीय परीक्षण में, R1-Zero की सटीकता शुरुआत में 15.6% थी, जो ट्रेनिंग के अंत तक बढ़कर 77.9% हुई। और परिष्कृत R1 मॉडल ने यह आंकड़ा 86.7% तक पहुंचा दिया — जो औसत मानव छात्र से बेहतर प्रदर्शन है।

खबर से जुड़े जीके तथ्य

DeepSeek-R1 मॉडल को reinforcement learning के माध्यम से तर्क करना सिखाया गया।
R1-Zero ने AIME 2024 परीक्षा में 86.7% तक की सटीकता हासिल की।
मॉडल ने “wait” जैसे शब्दों का उपयोग करना शुरू किया — संकेत कि वह सोच रहा था।
R1 ने AlpacaEval 2.0 और Arena-Hard जैसे मानकों पर क्रमश: 25% और 17% सुधार दिखाया।

Originally written on September 20, 2025 and last modified on September 20, 2025.

करेंट अफेयर्स

राज्य स्तरीय PCS परीक्षाओं हेतु सामान्य ज्ञान

सामान्य अध्ययन विषयवार MCQs

AI में तर्क शक्ति का विकास: DeepSeek-R1 ने मशीनों को ‘सोचने’ की नई दिशा दी

Reinforcement Learning: जब AI खुद से सीखता है

R1-Zero से R1 तक: एक परिपक्व मॉडल का निर्माण

खबर से जुड़े जीके तथ्य

Leave a Reply Cancel reply

नवीनतम पोस्ट्स