Yanlış Zirveleri Ölçeklendirme – O’Reilly


İnsanlar mesafeleri yargılamada kötü şöhretlidirler. İster ufka doğru giden düz bir yoldaki mesafeyi, ister bir vadideki mesafeyi hafife alma eğilimi vardır. Bir zirveye doğru yükselirken, tahmin, yanlış zirveler tarafından daha da karıştırılır. Amacınız ve bitiş noktanız olduğunu düşündüğünüz şey, daha düşük bir tepe noktası veya basitçe aşağıdan bir tepe gibi görünen bir kontur olarak ortaya çıkıyor. Başardığınızı veya en azından yakın olduğunuzu düşündünüz, ancak daha gidilecek çok yol var.

AI’nın hikayesi, noktalı bir ilerleme hikayesidir, ancak aynı zamanda (birçok) sahte zirvenin hikayesidir.


Yanlış Zirveleri Ölçeklendirme – O'Reilly

Daha hızlı öğrenin. Daha derin kaz. Daha uzağa bakın.

1950’lerde, Rusça’nın İngilizce’ye makine çevirisinin, sözlük aramalarından ve şablonlu ifadelerden daha karmaşık olmadığı düşünülüyordu. Doğal dil işleme, o zamandan beri çok uzun bir yol kat etti, günlük olarak kullanabileceğimiz bir şeye ulaşmak için birkaç iyi paradigmadan geçti. 1960’larda, Marvin Minsky ve Seymour Papert, lisans öğrencileri için Yaz Görüşü Projesi’ni önerdi: bir TV kamerasını bilgisayara bağlayın ve görüş alanındaki nesneleri tanımlayın. Bilgisayarla görü artık belirli görevler için metalaştırılmış bir şey, ancak devam eden bir çalışma olmaya devam ediyor ve dünya çapında birkaç yazdan (ve AI kışları) ve birkaç lisanstan çok daha fazlasını aldı.

On yıllar boyunca, saflığı ve iyimserliği yansıtan ve -eğer dürüst olursak- az miktarda cehalet ve kibir gösteren daha birçok örnek bulabiliriz. Burada öğrenilecek iki genel ders, makine çevirisinin aramalardan daha fazlasını içerdiği ve bilgisayarla görmenin kenar algılamadan daha fazlasını içerdiği değil, bilmediğimiz alanlarda karmaşık sorunlarla karşılaştığımızda, basit görünen her şeye karşı dikkatli olmamız gerektiğidir. ilk bakışta ve karmaşık bir alanın belirli bir şeridine başarılı çözümlerimiz olduğunda, bu çözümlerin genelleştirilebilir olduğunu varsaymamalıyız. Bu tür bir alçakgönüllülüğün daha anlamlı bir ilerleme ve bu tür bir ilerleme hakkında daha ölçülü bir anlayış sağlaması muhtemeldir. Ayrıca, kendi alanlarındaki geçmiş eğilimlerden ders alamamış görünen makine öğrenimi uzmanlarının tekrar eden ironisinin yanı sıra, geçmişteki tahminler ve hırslarla alay eden gelecekte uzmanların sayısını da azaltması muhtemeldir.

Bunların hepsi bizi DeepMind’ın Gato’su ve yapay genel zekanın (YGZ) zirvesinin ulaşılabilir olduğu iddiası. Zor iş yapıldı ve YGZ’ye ulaşmak artık basit bir ölçeklendirme meselesi. En iyi ihtimalle bu, doğru yolda sahte bir zirvedir; en kötü ihtimalle, farklı bir mimari ve düşünce yelpazesinde çok farklı bir rota boyunca uzanan AGI’den uzakta yerel bir maksimumdur.

DeepMind’s Gato, tek bir transformatör sinir ağına dayalı olarak birçok farklı türde görevi yerine getirmesi öğretilebilen bir AI modelidir. Gato’nun eğitildiği 604 görev, Atari video oyunları oynamaktan sohbete, simüle edilmiş 3B ortamlarda gezinmekten talimatları takip etmeye, resim yazısı yazmaktan gerçek zamanlı, gerçek dünya robotlarına kadar çeşitlilik gösterir. Notun başarısı, farklı görevler ve modaliteler için farklı modeller yerine tüm görevler için eğitilmiş tek bir model tarafından desteklenmesidir. Space Invaders’da nasıl başarılı olunacağını öğrenmek, bir sohbet sohbeti yürütme yeteneğini engellemez veya değiştirmez.

Gato’nun amacı “Genellikle çok sayıda görevde yetenekli bir ajanı eğitmenin mümkün olduğu hipotezini test edin; ve bu genel aracı, çok daha fazla sayıda görevde başarılı olmak için çok az ekstra veri ile uyarlanabilir.” Bunda başarılı oldu. Ancak bu başarı, daha yüksek hırslar açısından ne kadar genelleştirilebilir? bu cıvıldamak Bu, DeepMind’in araştırma direktörü Nando de Freitas’tan bir tepki dalgasını kışkırttı (buna dahil): “Artık her şey ölçekle ilgili! Oyun bitti!”

Söz konusu oyun, pratikte ticari makine öğrenimini (ML) oluşturan daha dar ama uygulamalı, görev odaklı, istatistiksel yaklaşımlardan ziyade bilim kurgu ve genel halkın AI olarak düşündüğü şeye daha yakın olan AGI arayışıdır.

İddia, AGI’nin artık hem donanım hem de yazılımda performansı iyileştirme ve daha fazla modda daha fazla veri ve daha fazla veri türü kullanarak modelleri daha büyük hale getirme meselesi olduğudur. Tabii, var Araştırma çalışması yapılacak, ancak şimdi tüm mesele kadranları 11’e ve ötesine çevirmekle ilgili ve işte, zirveye bir bayrak dikmek için AGI’nin kuzey yüzünü ölçeklendirmiş olacağız.

Yüksekte nefessiz kalmak kolaydır.

Diğer sistemlere ve ölçeklere baktığımızda, küçükteki yüzeysel benzerliklere çekilmek ve onları büyüklere yansıtmak kolaydır. Örneğin, bir tıkaç deliğinden aşağı dönen ve ardından sarmal gökadalarda kozmosa çıkan suya bakarsak, benzer bir yapı görürüz. Ancak bu spiraller, bağlantıyı görme arzumuzla fizikte olduğundan daha sıkı sıkıya bağlıdır. Belirli yapay zekayı YGZ’ye ölçeklendirmeye bakıldığında, zeka ve yeteneğin temel birimi olarak görevlere odaklanmak kolaydır. Bununla birlikte, doğada zeka ve öğrenme sistemleri hakkında bildiklerimiz, görevler, zeka, sistemler ve adaptasyon arasındaki ilişkilerin daha karmaşık ve daha incelikli olduğunu göstermektedir. Basitçe yeteneğin bir boyutunu büyütmek, ortaya çıkan genellemeyi tetiklemeden yeteneğin bir boyutunu basitçe büyütebilir.

Yazılıma, topluma, fiziğe veya hayata yakından bakarsak, ölçeklemeye genellikle örgütlenme ilkesi ve sürecindeki temel değişimlerin eşlik ettiğini görürüz. Mevcut bir yaklaşımın her ölçeklendirmesi, ötesinde farklı bir yaklaşımın gerekli olduğu bir noktaya kadar başarılıdır. Elektronik tablolar ve bir sosyal medya sayfası gibi ofis araçlarını kullanarak küçük bir işletmeyi yönetebilirsiniz. Amazon ölçeğine ulaşmak, daha büyük elektronik tablolar ve daha fazla sayfa meselesi değildir. Büyük sistemler, inşa edildikleri daha küçük sistemlerden veya onlardan önce gelen daha basit sistemlerden kökten farklı mimarilere ve özelliklere sahiptir.

Yapay genel zeka, görev tabanlı modeller almaktan ve veri, hız ve görev sayısını artırmaktan çok daha önemli bir zorluk olabilir. Genellikle bu tür sistemlerin ne kadar karmaşık olduğunu yeterince takdir etmiyoruz. Bölüyor ve basitleştiriyoruz, sonuç olarak ilerleme kaydediyoruz, ancak ilerlemeye devam ettikçe, basitleştirmenin tam da bu olduğunu keşfetmek için; daha fazla ilerleme kaydetmek için yeni bir model, paradigma, mimari veya program gereklidir. Durulayın ve tekrarlayın. Başka bir deyişle, temel kampa gittiniz diye aynı yaklaşımı kullanarak zirveye çıkabileceğinizi düşündüren nedir? Peki ya zirveyi göremiyorsanız? Neyi hedeflediğinizi bilmiyorsanız, ona bir rota çizmek zordur.

Cevabı varsaymak yerine şu soruyu sormalıyız: YGZ’yi nasıl tanımlarız? AGI, N görev için basitçe görev tabanlı AI ve yeterince büyük bir N değeri midir? Ve bu sorunun cevabı olsa bile evet, AGI’ye giden yol mutlaka görev merkezli mi? AGI’nin ne kadarı performanstır? AGI’nin ne kadarı büyük/daha büyük/en büyük veridir?

Hayata ve mevcut öğrenme sistemlerine baktığımızda ölçeğin önemli olduğunu, ancak basit bir çarpanın önerdiği anlamda olmadığını öğreniyoruz. AGI’yi kırmanın püf noktası, ölçeklendirmede bulunabilir – ancak yukarı değil, aşağı.

Daha azıyla daha fazlasını yapmak, daha fazlasını yapmaktan daha önemli görünüyor. Örneğin, GPT-3 dil modeli, 175 milyar parametreden oluşan bir ağa dayanmaktadır. Bilgi istemine dayalı görüntü oluşturucu olan DALL-E’nin ilk sürümü, GPT-3’ün 12 milyar parametreli bir sürümünü kullandı; ikinci, geliştirilmiş sürüm sadece 3,5 milyar parametre kullandı. Bir de çok görevli, çok modlu yeteneklerini yalnızca 1,2 milyar ile gerçekleştiren Gato var.

Bu azalmalar yönü gösteriyor, ancak Gato’nun, GPT-3’ün veya herhangi bir diğer çağdaş mimarinin, hedefe ulaşmak için mutlaka doğru araç olduğu net değil. Örneğin, bir şeyi öğrenmek için kaç eğitim örneği gerekir? Biyolojik sistemler için cevap genel olarak çok fazla değildir; makine öğrenimi için cevap genel olarak çoktur. Örneğin GPT-3, dil modelini 45 TB metne dayalı olarak geliştirdi. Bir insan ömrü boyunca bir milyar kelimelik sırayı okur ve duyar; bir çocuk konuşmaya başlamadan önce on milyona kadar maruz kalır. Bir süre sonra sivrisinekler belirli bir pestisitten kaçınmayı öğrenebilirler. tek ölümcül olmayan maruz kalma. İster video, spor, ister tahta ister kart olsun, yeni bir oyun öğrendiğinizde, genellikle sadece kuralların söylenmesi ve ardından makul bir şekilde ilerlemek için alıştırma ve kural açıklaması için belki bir veya iki oyunla oynamanız gerekir. Ustalık elbette çok daha fazla pratik ve özveri gerektirir, ancak genel zeka ustalıkla ilgili değildir.

Ve donanıma ve ihtiyaçlarına baktığımızda, beynin insan vücudunun en fazla güce aç organlarından biri olmasına rağmen, hala mütevazı bir güç tüketimine sahip olduğunu düşünün. yaklaşık 12 watt. Bir ömür boyunca beyin 10 MWh’a kadar tüketecektir; GPT-3 dil modelinin eğitimi tahmini 1 GWh aldı.

Ölçekleme hakkında konuştuğumuzda, oyun daha yeni başlıyor.

Donanım ve veri önemli olsa da, genel zekayı destekleyen mimariler ve süreçler, mevcut ML sistemlerini destekleyen mimariler ve süreçlerden zorunlu olarak oldukça farklı olabilir. Soruna daha hızlı donanım ve dünyanın tüm verilerini atmak, muhtemelen azalan getiriler görecektir, ancak bu, gerçek olanı görebileceğimiz sahte bir zirveyi ölçeklendirmemize izin verebilir.




Kaynak : https://www.oreilly.com/radar/scaling-false-peaks/

Yorum yapın

SMM Panel PDF Kitap indir