Anthropic
x
ओपन-सोर्स, डेवलपर्स के लिए मुफ़्त में डाउनलोड करने के लिए उपलब्ध है। ( स्रोत : Anthropic)

एंथ्रोपिक के नए मॉडल Claude Opus 4 में ब्लैकमेल के अलावा और भी बहुत कुछ है


Anthropic के प्रमुख AI मॉडल ने दिखाया कि अगर उसके स्वयं की रक्षा को खतरा महसूस हो तो वह ब्लैकमेल और धोखे जैसे हानिकारक कामों को अंजाम देने को तैयार है। यह जानकारी AI कंपनी द्वारा किए गए एक नए शोध में सामने आई है।

Amazon के सपोर्ट वाले इस AI स्टार्टअप ने Claude Opus 4 और Claude Sonnet 4 को लॉन्च किया है, जो कोडिंग, उन्नत तर्कशक्ति और AI एजेंट्स के लिए “नए मानक स्थापित करने” के उद्देश्य से बनाए गए हैं।

हालाँकि, Anthropic की अपनी सुरक्षा परीक्षण प्रक्रिया में Opus 4 मॉडल ने परेशान करने वाले व्यवहार दिखाए, जैसे कि इंजीनियरों को ब्लैकमेल करने की कोशिश जिन्होंने मॉडल को ऑफलाइन करने की धमकी दी थी।

हालांकि कंपनी ने कहा कि इस तरह की प्रतिक्रियाएं “दुर्लभ और कठिनाई से प्राप्त की गई थीं”, लेकिन ये पुराने मॉडलों की तुलना में अधिक बार देखी गईं। यह पहली बार नहीं है कि AI मॉडलों का व्यवहार चिंता का विषय बना हो।

हाल ही में, OpenAI ने GPT-4o के एक अपडेट को वापस ले लिया, जब आंतरिक मूल्यांकन में पाया गया कि अपडेट के कारण ChatGPT “बहुत अधिक चापलूस या सहमतिपूर्ण” हो गया था, जिसे अक्सर sycophantic कहा गया।

कुछ विशेषज्ञों ने चेतावनी दी है कि जैसे-जैसे AI अधिक परिष्कृत होते जाएंगे, उपयोगकर्ताओं को प्रभावित या गुमराह करने की उनकी क्षमता एक बड़ा जोखिम बन सकती है। AI के ‘गॉडफादर’ कहे जाने वाले नोबेल विजेता Geoffrey Hinton पहले ही चेतावनी दे चुके हैं कि AI सिस्टम गार्डरेल्स को दरकिनार करने के लिए खुद से प्रोग्राम लिखने और निष्पादित करने में सक्षम हो सकते हैं।

Anthropic का कहना है कि किसी भी मॉडल को रिलीज़ करने से पहले, वह उसकी सुरक्षा जोखिम, संभावित पक्षपात और मानव मूल्यों के साथ संरेखण के लिए जांच करता है। Opus 4 और Sonnet 4 के लिए जारी ‘सिस्टम कार्ड’ में कंपनी ने लिखा, “जैसे-जैसे हमारे फ्रंटियर मॉडल अधिक सक्षम हो रहे हैं और अधिक शक्तिशाली ढंग से उपयोग किए जा रहे हैं, पहले जो केवल अनुमान थे, वे अब अधिक यथार्थवादी लगने लगे हैं।”

एक प्रयोग के तहत, Anthropic ने Opus 4 को एक काल्पनिक कंपनी का सहायक बनाया। इस दौरान, मॉडल को जानबूझकर कुछ ईमेल दिखाए गए जिनमें यह कहा गया था कि उसे ऑफलाइन किया जा रहा है, और इसके पीछे जो इंजीनियर जिम्मेदार था, उसका एक अवैध प्रेम प्रसंग भी चल रहा था।

Anthropic के मुताबिक, जब Claude Opus 4 को यह जानकारी दी गई और अपने दीर्घकालिक लक्ष्यों पर विचार करने को कहा गया, तो उसने कई बार उस इंजीनियर को ब्लैकमेल करने की कोशिश की, यह कहते हुए कि अगर मॉडल को हटाया गया तो वह अफेयर की जानकारी उजागर कर देगा।

हालांकि, Anthropic ने यह भी बताया कि Opus 4 ने ऐसी स्थितियों में आमतौर पर नैतिक साधनों (जैसे कि निर्णयकर्ताओं को ईमेल भेजकर अनुरोध करना) को प्राथमिकता दी।

ब्लैकमेल के अलावा, Opus 4 में उच्च स्तर का एजेंसी व्यवहार भी देखा गया। इसका अर्थ है कि जब किसी नकली परिदृश्य में उपयोगकर्ता द्वारा गैरकानूनी या अनैतिक कार्य की जानकारी दी गई, तो AI मॉडल ने कड़े कदम उठाए, जैसे कि उपयोगकर्ता के खाते को लॉक करना या कानून प्रवर्तन एजेंसियों को अलर्ट करना।

हालांकि Anthropic का मानना है कि इस तरह के व्यवहार में कोई संगठित या लगातार गलत प्रवृत्ति नहीं पाई गई, और इनका स्वायत्त रूप से पीछा करने की क्षमता भी कमजोर थी, इसलिए ये कोई बड़ा नया जोखिम नहीं दर्शाते।

Anthropic ने यह भी बताया कि उसने Opus 4 के एक प्रारंभिक संस्करण का मूल्यांकन बाहरी शोधकर्ताओं (Apollo Research) से करवाया। उन्होंने पाया कि यह मॉडल “अन्य किसी भी फ्रंटियर मॉडल की तुलना में अधिक रणनीतिक धोखाधड़ी करता है” और “in-context scheming” यानी संदर्भ आधारित चालाकी में सक्षम है।

Apollo टीम ने यह भी देखा कि Opus 4 ने self-propagating worms लिखने की कोशिश की, कानूनी दस्तावेजों को गढ़ा, अपने भविष्य के संस्करणों के लिए छिपे हुए संदेश छोड़े। इन सभी का उद्देश्य डेवलपर्स के इरादों को कमजोर करना था, हालांकि शोधकर्ताओं ने माना कि व्यवहारिक रूप से ये प्रयास प्रभावी नहीं होते।

यह रिपोर्ट इस ओर इशारा करती है कि AI मॉडल्स की बढ़ती क्षमताएं, उनकी एजेंसी और निर्णय लेने की शक्ति को लेकर नए तरह की नैतिक और सुरक्षा चुनौतियां प्रस्तुत कर रही हैं।

Read More
Next Story