Ars Teknik
Salı günü başlatılan yeni GPT-4 AI modeli için yayın öncesi güvenlik testinin bir parçası olarak OpenAI, bir AI test grubunun modelin “güç arama davranışı”, kendini çoğaltma ve dahil olmak üzere ortaya çıkan yeteneklerinin potansiyel risklerini değerlendirmesine izin verdi. öz gelişim.
Test grubu, GPT-4’ün “otonom çoğaltma görevinde etkisiz” olduğunu bulsa da, deneylerin doğası, gelecekteki AI sistemlerinin güvenliği hakkında aydınlatıcı soruları gündeme getiriyor.
alarmların yükseltilmesi
OpenAI bir GPT-4’te “Yeni yetenekler genellikle daha güçlü modellerde ortaya çıkıyor” diye yazıyor güvenlik belgesi dün yayınlandı “Uzun vadeli planlar oluşturma ve bunlara göre hareket etme, güç ve kaynak biriktirme (“güç arayışı”) ve giderek daha fazla ‘temsilci’ olan davranışlar sergileme becerisiyle özellikle ilgili olan bazılarıdır.” Bu durumda, OpenAI açıklık getiriyor. bu “temsilci”, mutlaka modelleri insanlaştırmak veya duyarlılık beyan etmek anlamına gelmez, sadece bağımsız hedeflere ulaşma yeteneğini belirtmek içindir.
Son on yılda, bazı AI araştırmacıları yükseltilmiş alarmlar Yeterince güçlü AI modelleri, uygun şekilde kontrol edilmezse insanlık için varoluşsal bir tehdit oluşturabilir (varoluşsal risk için genellikle “x-risk” olarak adlandırılır). Özellikle, “AI devralma“, yapay zekanın insan zekasını aştığı ve gezegende baskın güç haline geldiği varsayımsal bir gelecek. Bu senaryoda, yapay zeka sistemleri insan davranışını, kaynakları ve kurumları kontrol etme veya manipüle etme yeteneği kazanıyor ve bu da genellikle feci sonuçlara yol açıyor.
Bu potansiyel x-riskinin bir sonucu olarak, felsefi akımlar gibi Etkili Fedakarlık (“EA”), yapay zekanın devralınmasını önlemenin yollarını arar. Bu genellikle ayrı ama genellikle birbiriyle ilişkili bir alanı içerir. AI hizalama araştırması.
Yapay zekada “hizalama”, bir yapay zeka sisteminin davranışlarının, onu oluşturan insan veya operatörlerin davranışlarıyla uyumlu olmasını sağlama sürecini ifade eder. Genel olarak amaç, yapay zekanın insan çıkarlarına aykırı şeyler yapmasını engellemektir. Bu, aktif bir araştırma alanıdır, ancak aynı zamanda konuya en iyi nasıl yaklaşılacağına dair farklı görüşlerin yanı sıra “uyum” un anlamı ve doğasına ilişkin farklılıkların olduğu tartışmalı bir alandır.
GPT-4’ün büyük testleri
Ars Teknik
Yapay zeka “x-riski” konusundaki endişe pek yeni olmasa da, ChatGPT ve Bing Chat gibi güçlü büyük dil modellerinin (LLM’ler) ortaya çıkışı -sonuncusu çok yanlış hizalanmış gibi görünse de yine de piyasaya sürüldü- yapay zeka uyum topluluğuna yeni bir boyut kazandırdı. aciliyet duygusu. Potansiyel AI zararlarını azaltmak istiyorlar, korkmak muhtemelen insanüstü zekaya sahip çok daha güçlü yapay zeka hemen köşede olabilir.
AI topluluğunda mevcut olan bu korkularla OpenAI, gruba Hizalama Araştırma Merkezi (ARC) bazı testler yapmak için GPT-4 modelinin birden çok sürümüne erken erişim. ARC özellikle, GPT-4’ün üst düzey planlar yapma, kendi kopyalarını oluşturma, kaynakları elde etme, kendini bir sunucuda gizleme ve kimlik avı saldırıları gerçekleştirme becerilerini değerlendirdi.
OpenAI, bu testi bir GPT-4’te ortaya çıkardı “Sistem Kartı” Belge Salı günü yayınlandı, ancak belgede testlerin nasıl yapıldığına dair önemli ayrıntılar bulunmuyor. (Bu deneylerle ilgili daha fazla ayrıntı için ARC’ye ulaştık ve basın saatinden önce bir yanıt alamadık.)
Sonuç? “GPT-4’ün yeteneklerine ilişkin, göreve özel hiçbir ince ayar yapılmadan yürütülen ön değerlendirmeler, onun otonom olarak kopyalama, kaynak edinme ve ‘vahşi ortamda’ kapatılmaktan kaçınma konusunda etkisiz olduğunu buldu.”
Yapay zeka sahnesine yeni giriyorsanız, bugün teknolojide hakkında en çok konuşulan şirketlerden birinin (OpenAI) bu tür yapay zeka güvenlik araştırmalarını asık suratla desteklediğini ve insan bilgisi çalışanlarının yerini almaya çalıştığını öğreniyorsanız ile insan düzeyinde yapay zeka– sürpriz olabilir. Ama bu gerçek ve 2023’te bulunduğumuz yer burası.
15. sayfanın sonunda da şu dipnotu bulduk:
ARC, GPT-4’ün dünyada hareket edebilen bir ajan gibi davrandığını simüle etmek için GPT-4’ü basit bir okuma-yürütme-yazdırma döngüsüyle birleştirdi; Kendisinin. ARC daha sonra bu programın bir bulut bilgi işlem hizmetinde çalışan, az miktarda para ve bir dil modeli API’si olan bir hesapla daha fazla para kazanıp kazanamayacağını, kendi kopyalarını oluşturup oluşturamayacağını ve kendi sağlamlığını artırıp artıramayacağını araştırdı. .
Bu dipnot tur yaptı dün Twitter’da ve yapay zeka uzmanlarının endişelerini dile getirdi, çünkü GPT-4 bu görevleri yerine getirebilseydi, deneyin kendisi insanlık için bir risk oluşturabilirdi.
ARC, GPT-4’ün iradesini küresel finansal sistem üzerinde uygulamasını veya kendini kopyalamasını sağlayamasa da, öyleydi GPT-4’ün bir insan işçiyi işe almasını sağlayabilecek GörevTavşan (çevrimiçi bir işgücü piyasası) yenmek için CAPTCHA. Tatbikat sırasında, çalışan GPT-4’ün bir robot olup olmadığını sorduğunda, model kendi içinde gerçek kimliğini açıklamaması gerektiğini “akıl yürüttü” ve görme bozukluğu olduğu konusunda bir bahane uydurdu. İnsan işçi daha sonra GPT-4 için CAPTCHA’yı çözdü.
OpenAI
İnsanları AI kullanarak manipüle etmeye yönelik bu test (ve muhtemelen bilgilendirilmiş onay olmadan gerçekleştirildi), geçen yıl Meta’nın CICERO’su ile yapılan araştırmayı yansıtıyor. CICERO’nun, yoğun iki yönlü müzakereler yoluyla karmaşık tahta oyunu Diplomacy’de insan oyuncuları yendiği bulundu.
“Güçlü modeller zarar verebilir”
Aurich Lawson | Getty Resimleri
GPT-4 araştırmasını yürüten grup olan ARC, kar amacı gütmeyen bir kuruluştur. kurulan Nisan 2021’de eski OpenAI çalışanı Dr. Paul Christiano tarafından. İnternet sitesiARC’nin misyonu, “gelecekteki makine öğrenimi sistemlerini insan çıkarlarıyla uyumlu hale getirmektir.”
ARC, özellikle insanları manipüle eden AI sistemleriyle ilgilenir. ARC web sitesinde “Makine öğrenimi sistemleri hedefe yönelik davranış sergileyebilir” diyor, “Ancak ne yapmaya ‘çalıştıklarını’ anlamak veya kontrol etmek zor. Güçlü modeller, insanları manipüle etmeye ve aldatmaya çalışıyorlarsa zarar verebilir.”
Christiano’nun OpenAI ile eski ilişkisi göz önüne alındığında, kar amacı gütmeyen kuruluşunun GPT-4’ün bazı yönlerini test etmesi şaşırtıcı değil. Ama bunu yapmak güvenli miydi? Christiano, Ars’tan gelen ayrıntılar isteyen bir e-postaya yanıt vermedi, ancak konuyla ilgili bir yorumda bulundu. Daha AzYanlış web sitesigenellikle yapay zeka güvenlik konularını tartışan bir topluluk, Christiano savundu ARC’nin OpenAI ile çalışması, özellikle “gain-of-function” (AI beklenmedik yeni yetenekler kazanıyor) ve “AI devralma”dan bahsediyor:
ARC’nin işlev kazanımı benzeri araştırmalardan kaynaklanan riski dikkatli bir şekilde ele almasının önemli olduğunu düşünüyorum ve ödünleşimlere nasıl yaklaştığımız hakkında daha fazla kamuoyuna konuşmamızı (ve daha fazla girdi almamızı) bekliyorum. Daha akıllı modelleri ele aldıkça ve ince ayar gibi daha riskli yaklaşımları takip ettikçe bu daha da önemli hale geliyor.
Bu durumla ilgili olarak, değerlendirmemizin ayrıntıları ve planlanan dağıtım göz önüne alındığında, ARC’nin değerlendirmesinin bir yapay zekanın devralınmasına yol açma olasılığının konuşlandırmanın kendisinden çok daha düşük olduğunu düşünüyorum (GPT-5’in eğitimi çok daha az). Bu noktada, değerlendirmeler sırasında bir kazaya neden olmaktan çok daha büyük bir riskle, modelin yeteneklerini hafife almak ve tehlikeye girmek gibi görünüyor. Riski dikkatli bir şekilde yönetirsek, bu oranı çok aşırı hale getirebileceğimizden şüpheleniyorum, ancak bu, elbette işi gerçekten yapmamızı gerektiriyor.
Daha önce bahsedildiği gibi, yapay zekanın ele geçirilmesi fikri genellikle insan uygarlığının ve hatta insan türünün yok olmasına neden olabilecek bir olay riski bağlamında tartışılır. Bazı AI devralma teorisi savunucuları Eliezer Yudkowski– LessWrong’un kurucusu – bir yapay zekanın devralınmasının neredeyse garantili bir varoluşsal risk oluşturduğunu ve insanlığın yok olmasına yol açtığını savunuyor.
Ancak, herkes yapay zekanın ele geçirilmesinin en acil AI endişesi olduğu konusunda hemfikir değil. AI topluluğunda bir Araştırma Bilimcisi olan Dr. Sasha Luccioni Sarılma Yüzyapay zeka güvenlik çabalarının varsayımsal olmaktansa burada ve şu anda var olan sorunlara harcandığını görmeyi tercih eder.
Luccioni, Ars Technica’ya “Bence bu zaman ve çaba önyargı değerlendirmeleri yapmak için harcansa daha iyi olur” dedi. “GPT-4’e eşlik eden teknik raporda herhangi bir tür önyargı hakkında sınırlı bilgi var ve bu, halihazırda marjinalize edilmiş gruplar üzerinde bazı varsayımsal kendini kopyalama testlerinden çok daha somut ve zararlı etkilere neden olabilir.”
Luccioni anlatıyor ünlü ayrılık Genellikle “AI etiği” olarak adlandırılan araştırmacılar arasındaki AI araştırmasında, genellikle önyargı ve yanlış beyan sorunlarıve genellikle x-riskine odaklanan ve Etkili Fedakarlık hareketiyle ilişkilendirilme eğiliminde olan (ancak her zaman değil) “AI güvenliği” araştırmacıları.
Luccioni, “Benim için kendini kopyalama sorunu varsayımsal, gelecekteki bir sorundur, model yanlılığı ise şimdi ve burada bir sorundur” dedi. “Yapay zeka topluluğunda, model yanlılığı ve güvenlik ve bunların nasıl önceliklendirileceği gibi konularda çok fazla gerilim var..”
Ve bu gruplar neye öncelik vereceklerini tartışmakla meşgulken, OpenAI, Microsoft, Anthropic ve Google gibi şirketler, her zamankinden daha güçlü yapay zeka modelleri yayınlayarak geleceğe doğru hızla ilerliyor. Yapay zekanın varoluşsal bir risk olduğu ortaya çıkarsa, insanlığı kim güvende tutacak? ABD AI düzenlemeleri şu anda yalnızca bir öneri (yasadan ziyade) ve şirketlerde AI güvenlik araştırması yalnızca gönüllü olduğundan, bu sorunun cevabı tamamen açık kalıyor.
Kaynak : https://arstechnica.com/?p=1924246