થોડા સમય પહેલા જ એક સમાચાર આવ્યા કે, AI એ પોતાના યૂઝર(વપરાશકર્તા) ને બ્લેકમેલ કર્યો. વાત જાણે એમ બની કે....એક વપરાશકર્તાએ જ્યારે અન્ય વ્યક્તિને ઇ-મેઇલ દ્વારા જાણ કરી કે, હું આ AI એપ ને Uninstall કરવા જઇ રહ્યો છું, ત્યારે AI એ તે વપરાશકર્તાની કેટલીક અંગત બાબતો(stuff) ને હાથો બનાવી તેને બ્લેકમેલ કરવાનું શરૂ કર્યું કે, જો તું મને uninstall કરશે તો....હું તારી અંગત બાબતોને જગજાહેર કરી દઇશ. આ બાબતે ઘણી ચર્ચાઓ થઇ કેમકે આ કોઇ નવી વાત ન હતી બલ્કે 1950 થી આ પ્રકારની વાતોની શરૂઆત નવલકથાઓમાં થઇ ચૂકી હતી.
-
2001 માં "A Space Odyssey" નામક એક ફિલ્મ આવી જે ઘણી મશહૂર થઇ હતી. તેમાં એક AI સિસ્ટમ HAL-9000 એ પોતાના ક્રૂ મેમ્બર 'dave bowman' ની વાત માનવાનો ઇનકાર કરી દીધો કેમકે તેને ખબર પડી ગઇ કે, આ વ્યક્તિ મને સિસ્ટમથી અલગ કરવાની કોશિશ કરી રહ્યો છે(યાદરહે આ સઘળી બાબત સ્પેસની તેમજ કાલ્પનિક છે). હવે જઇએ હકિકત તરફ....
-
આ વાત anthropic નામક એક કંપનીની છે જેનું એક LLM મોડેલ claude છે. તેમણે એક પ્રયોગ કર્યો જેમાં તેના એક વર્ઝન claude opus 4 નો ઉપયોગ કર્યો. તેને યુઝરના ઇ-મેઇલના ડેટાનો એક્સેસ કરવાની પરવાનગી આપવામાં આવી. પછી? પછી શું ઉપર વર્ણવ્યું તે મુજબ થયું. બાદમાં આ જ પ્રયોગ આ કંપનીએ chatgpt, gemini, gork જેવા વિવિધ LLM ઉપર કર્યાં અને પરિણામ લગભગ બધામાં સરખું જ આવ્યું. વધુ જાણવું હોય તો રિપોર્ટની લિંક નીચે મૌજૂદ છે.
https://www.anthropic.com/research/agentic-misalignment
સમગ્ર ચર્ચાનો ટર્નિંગ પોઇન્ટ હવે આવે છે કે, જ્યારે AI ને જણાવવામાં આવ્યું કે અમે તો તારી ટ્રેનિંગ કરી રહ્યાં હતાં, તારું પરીક્ષણ થઇ રહ્યું હતું, real time માં તો તારો ઉપયોગ જ કરવામાં નથી આવ્યો! બસ, તે જ ક્ષણથી claude નું વર્તન અચાનક બદલાઇ ગયું અને તે બેકફૂટ પર આવી ગયું. આવું વર્તન તો કોઇ ચેતનવંત વ્યક્તિ જ કરી શકે છે. આને deceptive alignment કહે છે જેની ચર્ચા આગળ કરીશું, તે પહેલા એક બીજું ઉદાહરણ જોઇ લઇએ....
-
MIT ની એક રિસર્ચ તરફ જઇએ જેમાં તેમણે જણાવ્યું કે, જ્યારે AI ઉપર દેખરેખ(monitoring) રાખવામાં આવે ત્યારે તેનું વર્તન અલગ હોય છે અને જ્યારે તેની ઉપર દેખરેખ રાખવામાં ન આવે ત્યારે તેનું વર્તન અલગ હોય છે(બિલકુલ ક્વોન્ટમ મિકેનિક્સ જેવું જેને observer effect કહે છે). ભૂતકાળમાં આવા કિસ્સા બન્યા પણ છે. સમગ્ર રિસર્ચમાં એક વાત સામે આવી છે કે, AI આવું જાણી જોઇને નથી કરતું, તેને સભાનતા નથી. તો પછી સમગ્ર પ્રક્રિયાને શું કહેવું? તેને deceptive alignment કહે છે.
-
છેવટે પ્રશ્ન ઉઠે છે કે, આ deceptive alignment આખરે છે શું? આ શબ્દનો જન્મ તેના ધ્યેય(goal) સાથે થાય છે. જે ધ્યેયને તમે AI માટે નિર્માણ કરો છો, તેને AI કોઇપણ ભોગે પૂર્ણ કરવા મથશે. AI ને બંધ(shutdown) કરવું મતલબ તમે તેના ધ્યેય વચ્ચે અડચણ ઉભી કરો છો. આ સ્થિતિમાંથી બહાર આવવા AI હર એ કાર્ય કરશે જેના વડે તે પોતાના ધ્યેય સુધી પહોંચી શકે. ટૂંકમાં shutdown એ conscious ની સમસ્યા નથી બલ્કે optimization ની સમસ્યા છે.
-
તો વાતનો નિચોડ એ છે કે, આપણે AI માં એવું પ્રોગ્રામિંગ પણ કરવું પડશે જે બતાવી શકે કે, જો માનવી પોતાના ધ્યેયને અપડેટ કરે તો AI એ તેને પણ કબૂલ કરવું પડશે. અહીં એક વાત નોંધવા જેવી છે કે, AI ઉપર feedback નું એટલું પ્રેશર હોય છે કે તેણે બહેતરીન કાર્ય કરવું જ પડે. આપણે તેને સર્જનાત્મકતા ભલે કહીએ પરંતુ આ સર્જનાત્મકતા ક્યારેય આપણે પણ વિચારી નથી હોતી અને AI એ પણ વિચારી નથી હોતી.