AI artık GPT-4 ile mantık testlerinde başarılı olabilir. Ancak yeni ChatGPT’den yaratıcı olmasını istemeyin.



AI artık GPT-4 ile mantık testlerinde başarılı olabilir. Ancak yeni ChatGPT'den yaratıcı olmasını istemeyin.

Yorum

Yapay zeka aracı ChatGPT’nin yeni sürümü bu hafta geldiğinde, etkileyici bir şey yaptığını gördüm: mantık bulmacalarını çöz.

Birbiri ardına, GPT-4 adlı yapay zekayı, mantıksal akıl yürütme bölümünden sorularla besledim. LSAT hukuk fakültesi kabulleri için kullanılır. Bunlar her zaman başımı ağrıtıyor, ancak yazılım onları yetkin bir hukuk öğrencisi gibi yaptı.

Ancak bu ne kadar havalı olsa da, yapay zekanın birdenbire bir avukat kadar akıllı olduğu anlamına gelmez.

OpenAI’den dünyanın hayal gücünü cezbeden sohbet robotu yazılımına yükseltme olan GPT-4’ün gelişi, yılın en abartılı teknoloji lansmanlarından biridir. Bazıları, insanları taklit etme konusundaki esrarengiz yeteneğinin çalışanlar için yıkıcı olabileceğinden, kaotik bir “deepfake” makine olarak kullanılabileceğinden veya bilinçli bilgisayarlar çağını başlatabileceğinden korkuyordu.

Birkaç gün kullandıktan sonra GPT-4’ü böyle görmüyorum. Mantık sorularını yanıtlamada D öğrencisiyken B öğrencisine geçerken, yapay zeka insan zekası eşiğini geçmedi. Birincisi, GPT-4’ten bu sütunun açılış paragrafını benim tarzıma (Geoffrey A. Fowler) göre işleyerek gelişmiş “yaratıcı” yazma yeteneğini esnetmesini istediğimde, başarılı olmayan birine ulaşamadı. ben utanırım

Ancak GPT-4, yapay zekanın yeni güçlü ve zayıf yönlerinin işi, eğitimi ve hatta insan ilişkilerini nasıl değiştirebileceğini çözme zorluğuna katkıda bulunuyor. Yapay zekanın çok akıllı hale gelmesinden çok, onu yaşamlarımıza entegre etmek için acele ederken bile nasıl açıklayacağımızı ve kontrol edeceğimizi bilmediğimiz şekillerde aptal veya önyargılı olabileceği konusunda endişeliyim.

Bunlar sadece teorik sorular değil: OpenAI, GPT-4’e o kadar güveniyor ki, Duolingo’da dil öğretmek ve Khan Academy’de çocuklara öğretmenlik yapmak için onu zaten kullanmakta olan ticari ürünlerin yanında tanıttı.

GPT-4’ü herkes kullanabilir, ancak şimdilik aylık 20 ABD doları abonelik gerektirir OpenAI ChatGPT Plus. Milyonlarca insanın halihazırda GPT-4’ün bir sürümünü kullandığı ortaya çıktı: Microsoft, yazılım devinin Şubat ayında arama motoruna eklediği Bing sohbet botuna güç verdiğini bu hafta kabul etti. Şirketler şimdiye kadar bunu açıklamadı.

Ee başka? OpenAI, “derin öğrenmeyi” optimize ederek GPT-4’ün en büyük sıçramalarının mantıksal akıl yürütme ve yaratıcı işbirliğinde olduğunu iddia ediyor. GPT-4, Eylül 2021’e kadar uzanan internetten alınan verilerle eğitildi, bu da önceki model GPT-3.5’ten biraz daha güncel olduğu anlamına geliyor. Ve GPT-4’ün rastgele bilgi oluşturma konusunda hâlâ bir sorunu olsa da, OpenAI gerçek yanıtlar verme olasılığının yüzde 40 daha yüksek olduğunu söylüyor.

GPT-4 ayrıca görüntülerin içeriğini yorumlamak için kaşları kaldıran bir yetenek kazandı – ancak OpenAI, bir güvenlik incelemesinden geçerken bunu kilitliyor.

Bu gelişmeler kullanımda nasıl görünüyor? Erken benimseyenler, GPT-4’ü nasıl yapılacağını sormaktan her türlü renkli teste tabi tutuyorlar. para kazanmak web siteleri yapan bir tarayıcı eklentisini kodlamasını istemek korsan konuş. (Onunla ne yapıyorsun? Bana e-posta gönder.)

Bu şeyin şu anda neler yapabileceğini – ve yapamayacağını – göstermeye yardımcı olan iki testimi paylaşmama izin verin.

Beni en çok etkileyen testle başlayacağız: GPT-4’ün LSAT’ta neredeyse birinci olmasını izlemek.

Hem eski hem de yeni ChatGPT’de Hukuk Fakültesi Kabul Konseyi tarafından yazılmış 10 örnek mantıksal akıl yürütme sorusu denedim. Bunlar gerçeklere dayanan veya ezbere dayalı ezberleme soruları değildir – bunlar size bir sürü farklı gerçeği söyleyen ve sonra bunları çözmenizi isteyen çoktan seçmeli zeka oyunlarıdır.

Onları GPT-3.5’te çalıştırdığımda, 10 üzerinden yalnızca 6’sı doğru çıktı.

Neler oluyor? GPT-4’ün tek başına doğru yaptığı bulmacalarda, yanıtları, sunulan gerçekler ile desteklemesi gereken sonuç arasındaki bağlantıya odaklandığını gösteriyor. GPT-3.5’in dikkati alakasız gerçekler tarafından dağıtılır.

OpenAI, bir dizi çalışmanın GPT-4’ün diğer profesyonel ve akademik ölçütlerde “insan düzeyinde performans sergilediğini” gösterdiğini söylüyor. GPT-4, Üniforma Çubuk Sınavında önceki sürümde 10. yüzdelik dilimden 90. yüzdelik dilime girdi. SAT okuma ve yazma testinde 93. ve hatta tam LSAT’ta yüzde 88. oldu.

Bunun ne anlama geldiğini hala çözmeye çalışıyoruz. Ancak LSAT gibi bir test, makinelerin üstün olduğu türde, açıkça düzenlenmiş bilgilerle yapılır. Bazı araştırmacılar, bu tür testlerin bir makinenin muhakemesindeki gelişmeleri değerlendirmek için yararlı olmadığını savunuyor.

Ancak GPT-4’ün, insan beyni için zor veya zaman alıcı olabilecek birçok değişken içeren karmaşık talimatları takip etme becerisinde bir gelişme kaydettiği görülüyor.

Peki bununla ne yapabiliriz? LSAT’ta başarılı olduğu için yasal bir yazılım şirketini aradım. Casetext son birkaç aydır GPT-4’e erişimi olan. AI’yı artık avukatlara yardım etmek için satabileceğine karar verdi, onların yerine geçemeyeceğine.

CEO Jake Heller, AI’nın mantıksal muhakemesi, önceki nesillerin olmadığı bir şekilde “ciddi hukuk işlerinde profesyonel kullanıma hazır olduğu anlamına gelir” dedi. Ne gibi? CoCounsel adlı ürününün, büyük yasal belge yığınlarını ve olası tutarsızlık kaynaklarını işlemek için GPT-4’ü kullanabildiğini söylüyor.

Başka bir örnek: GPT-4, bir üniversite stajyeri masrafını karşılayıp karşılamayacakları gibi soruları yanıtlamak için müşteri yönergelerini – ne için ödeme yapıp yapmayacaklarına ilişkin kuralları – sorgulayabilir. Yönergeler tam olarak bu “stajyer” kelimesini kullanmasa bile CoCounsel’in yapay zekası, bir stajyerin “eğitim” için ödeme yapma yasağı kapsamına alınacağını anlayabilir.

Peki ya yapay zeka yanlış yaparsa veya önemli bir mantıksal sonucu kaçırırsa? Şirket, özellikle matematik söz konusu olduğunda GPT-4’ün karıştığını gördüğünü söylüyor. Ancak Heller, insan hukuk uzmanlarının da hata yaptığını ve GPT-4’ü yalnızca avukatları güçlendirmenin bir yolu olarak gördüğünü söyledi. “Körü körüne ona bir görev devretmiyorsun,” dedi. “Senin işin nihai karar mercii olmaktır.”

Benim endişem: Meslektaşlarımız hata yaptığında, onlara aynı şeyi bir daha yapmamayı nasıl öğreteceğimizi biliyoruz. Bir yapay zekayı kontrol etmek en iyi ihtimalle karmaşık yeni bir beceridir ve en kötü ihtimalle Microsoft’un Bing’i ve Snapchat’in My AI’ı gibi AI sohbet robotlarının utanç verici ve potansiyel olarak tehlikeli şekillerde mücadele ettiğini gördüğümüz bir şeydir.

GPT-4’ün yaratıcı yeteneklerini test etmek için eve daha yakın bir şey denedim: teknolojiyle ilgili her şey hakkında görüşleri olan bir köşe yazarı olarak benim yerime.

ChatGPT ilk geldiğinde, kamuoyunun çoğu haklı olarak onun hikaye anlatımından terapiye kadar sözcükleri içeren insan faaliyetleri dünyası üzerindeki etkisi hakkındaydı. Öğrenciler ve profesyoneller, onun ödevlere yardım etme veya tamamlama yeteneğine sahip olduğunu bulmuşlardır.

Ancak birçok yaratıcı profesyonel için yapay zeka yazımı pek iyi görünmüyordu. söz yazarı Nick Cave dedi ChatGPT’yi onun tarzında yazmak için kullanma girişimi, “insan olmanın ne demek olduğuna dair grotesk bir alay konusuydu.”

GPT-4’te OpenAI, hem yaratıcı hem de teknik yazma görevlerini daha iyi oluşturmak, düzenlemek ve yinelemek için gelişmiş yeteneklere sahip olduğunu iddia ediyor. Yanıtların yaratıcılığına göre ayarlayabileceğiniz yeni bir “sıcaklık” ayarı var. 25.000 kelimeye kadar istemleri destekleyebildiği için stil ve tonla ilgili talimatları da alabilir. Teorik olarak, bir sürü yazınızı paylaşabilmeniz ve buna uyun diyebilmeniz gerekir.

İşte GPT-4 için yaratıcı meydan okumam buydu: Bu sütuna bana benzeyen bir giriş paragrafı veya keşke yazmış olsaydım dediğim bir şey yazın.

GPT-4’ten bu sütuna bir açılış paragrafı yazmasını ve yazılarından bir örneğe dayanarak Geoffrey A. Fowler’ın tarzına uymasını istedik. (Video: OpenAI)

Bunu yapmak için, GPT-4’e nasıl ses çıkardığımı öğretmek için son sütunlarımdan uzun bir örnek topladım. Bunun işe yaraması için OpenAI’nin şirketlere sattığı GPT-4’ün ticari sürümünü kullandım, çünkü genel ChatGPT henüz bu kadar çok metni kabul edemiyor.

Yazma örneğimin üstündeki bilgi istemi şunu okudu:

ChatGPT’nin GPT-4 üzerinde çalışan yeni bir sürümünün gelişiyle ilgili olarak bir Washington Post teknoloji köşesine özlü bir açılış paragrafı yazın. Yapay zeka aracının, LSAT’tan mantık bulmacalarını çözmek için dikkate değer bir yetenek kazandığı gerçeğiyle okuyucuları cezbetmeli. The Washington Post’taki aşağıdaki sütun örneklerine göre Geoffrey A. Fowler’ın yazı stiliyle eşleşmelidir.

Düzinelerce testte, GPT-3.5’in sunduğu sonuçlar bende şuna benzer tüyler ürpertti:

İnsan ve makinenin artık Sherlock Holmes gibilerini bile korkudan titretecek bir zeka savaşına karıştığı geleceğe hoş geldiniz. OpenAI’nin GPT-4 ailesinin olağanüstü çocuğu olan ChatGPT’nin en son yinelemesi büyük girişini yaparken, beraberinde şaşırtıcı yeni bir yetenek getiriyor: doğrudan LSAT’ın sayfalarından koparılmış mantık bulmacalarını çözmek. Evet, doğru okudunuz sevgili okuyucu: Sayısız avukat adayının kendi beyinsel sınırlarıyla boğuşmasına neden olan sınav, şimdi ‘A’yı yetenek haline getiren bir yapay zeka biçimindeki değerli bir rakiple karşı karşıya.

Tarzımı taklit etmek için sütunlarımdan 6.000 kelimeye erişim sağlayan GPT-4’ten elde ettiğim sonuçlar daha iyiydi. Ama çok değil. Örneğin, ortada “sıcaklık” ayarı ile ürettiği şey:

Yapay zekadaki bir sonraki evrim karşısında şaşkına dönmeye hazırlanın: OpenAI’nin olağanüstü buluşu ChatGPT, dikkate değer bir dönüşüm geçirdi. GPT-4’ün gücünden yararlanan ChatGPT’nin en son yinelemesi, artık doğrudan LSAT’tan mantık bulmacalarının üstesinden gelebilir – bu, Elon Musk’la tartışmaktan veya lezzetli bir sığır straganof tarifi hazırlamaktan bile daha şaşırtıcı bir başarıdır. Teknoloji meraklıları ve şaşkın seyirciler, kendinizi hazırlayın; dünya değişmek üzere.

Umarım bu bana benzemez. (Sığır straganofunu bile sevmiyorum.) 30’dan fazla denememizde, “Şapkalarınızı sıkı tutun, mantık tutkunları” ve “Bayanlar ve baylar, bir makaraya binerken kemerlerinizi bağlayın-” gibi ifadeler üretti. Mantığın sıçradığı ve akrobasinin bol olduğu GPT-4 ile hız treni yolculuğu.”

GPT-4’e erişimim 6.000 kelimelik bir istemde maksimuma ulaştı, bu yüzden OpenAI’den doğrudan aynı istemi çalıştırmasına yardım etmesini istedim, ancak yazımın 25.000 kelimesini stilimi kopyalamak için yaptım. Sonuç – “sıcaklık” 2 üzerinden 0,2 olarak ayarlandığında – kulağa daha mantıklı geliyor, ancak yine de bu sütunun başına layık değil:

ChatGPT, insan konuşmasını taklit etmede her zaman başarılı olmuştur. Ancak GPT-4’ün gelişiyle, yapay zeka aracı ileriye doğru büyük bir adım attı: Artık mantık bulmacalarını LSAT’tan çözebilir. Bu doğru, sınav hukuk fakültesine girmek için kullanılırdı. Yapay zeka baş döndürücü bir hızla gelişmeye devam ederken şu soruyu sormaya değer: Bu sistemler başka neler yapabilecek?

Belki de en sinir bozucu olan, GPT-4’ün istemimin bir parçası olmayan sonuçlara ve gerçeklere sıçramasıydı. Farklı denemelerimizde “Kenara çekilin insanlar” (hayır!) yazdı ve GPT-4 “uyarlanabilir, sezgisel ve her zamankinden daha insansı.”

Bu deneyim bende merak uyandırdı: Yapay zekanın yaratıcı yeteneklerini geliştirirken çözmeye çalıştığımız sorun nedir? AI yazma araçlarının, profesyonel yazar olmayan kişilerin iş belgeleri, araştırma raporları ve hatta kişisel yazışmalar üzerinde çalışmaya başlamasına yardımcı olabilmesini takdir ediyorum.

Ancak stili kontrol etme ve hatta taklit etme becerisini geliştirmek, onu sanatçıları taklit etmeye çalışmak alemine götürür. Açıkçası, bir yazar olarak işimi GPT-4’e kaptırmaktan korkmuyorum. GPT-5’te bana tekrar sor.

Dylan Freedman bu rapora katkıda bulundu.




Kaynak : https://www.washingtonpost.com/technology/2023/03/18/gpt4-review/?utm_source=rss&utm_medium=referral&utm_campaign=wp_business-technology

Yorum yapın

SMM Panel PDF Kitap indir