VB Transform 2023 oturumlarını görüntülemek için isteğe bağlı kitaplığımıza gidin. Buradan Kaydolun
A araştırma bu ay yayınlandı Stanford Üniversitesi, UC Berkeley’den araştırmacılar tarafından ve Samaya AI büyük dil modellerinin (LLM’ler) genellikle daha uzun bağlam pencerelerinde kendilerine verilen ilgili bilgilere erişmede ve bunları kullanmada başarısız olduğunu bulmuştur.
Dil modellerinde, bir bağlam penceresi, bir modelin belirli bir durumda işleyebileceği ve yanıt verebileceği metnin uzunluğuna atıfta bulunur. Belirli bir metin analizi veya chatbot konuşması için çalışan bir bellek olarak düşünülebilir.
Çalışma, yayınlandıktan sonra geçen hafta geniş ilgi gördü çünkü birçok geliştirici ve LLM’leri deneyen diğer kullanıcılar, daha geniş bağlam pencerelerine yönelik eğilimin LLM performansını ve çeşitli uygulamalardaki kullanışlılığını iyileştirmeye devam edeceğini varsaymıştı.
>>Özel sayımızı kaçırmayın: Veri merkezinin Geleceği: Gittikçe artan talepleri karşılama.<<
Bir LLM, bağlam penceresi için girdi olarak tüm bir belgeyi veya makaleyi alabilirse, geleneksel düşünceye göre, LLM, hakkında sorular sorulduğunda o belgenin tüm kapsamının mükemmel bir şekilde anlaşılmasını sağlayabilirdi.
Bağlam penceresi etrafındaki varsayımlar kusurlu
Anthropic gibi LLM şirketleri, kullanıcıların analiz edilecek veya özetlenecek daha fazla girdi sağlayabilecekleri daha uzun içerik pencereleri fikri etrafında heyecan uyandırdı. Anthropic, Claude 2 adlı, 100.000 jetonluk büyük bir bağlam penceresi sağlayan yeni bir model yayınladı ve bunun uzun konuşmaları özetlemek veya notlar ve yazılar hazırlamak gibi yeni kullanım durumlarını mümkün kılabileceğini söyledi.
Ancak çalışma, LLM’nin onu doğru bir şekilde araştırma ve analiz etme becerisi söz konusu olduğunda, bağlam penceresi etrafındaki bazı varsayımların kusurlu olduğunu gösteriyor.
Çalışma, LLM’lerin “ilgili bilgiler girdi bağlamının başında veya sonunda ortaya çıktığında en iyi performansı gösterdiğini ve modellerin ilgili bilgilere uzun bağlamların ortasında erişmesi gerektiğinde önemli ölçüde düştüğünü” bulmuştur. Ayrıca, açıkça uzun bağlamlı modeller için bile, girdi bağlamı uzadıkça performans önemli ölçüde düşer.”
Geçen hafta, vektör veri tabanı şirketi Pinecone’nin COO’su Bob Wiederhold gibi endüstri uzmanları, araştırmayı, arama ve analiz gibi şeyler yapmak için tüm belgeleri bir belge penceresine doldurmanın birçok kişinin umduğu her derde deva olmayacağının kanıtı olarak gösterdi.
Anlamsal arama, belge doldurmaya tercih edilir
Pinecone gibi vektör veritabanları, geliştiricilerin bağlam penceresine çekmek için ilgili bilgileri arayarak LLM belleğini artırmasına yardımcı olur. Wiederhold, vektör veritabanlarının öngörülebilir gelecekte geçerli kalacağına dair kanıt olarak çalışmayı işaret etti, çünkü çalışma, vektör veritabanları tarafından sağlanan semantik aramanın belge doldurmadan daha iyi olduğunu öne sürüyor.
Stanford Üniversitesi’nden çalışmanın baş yazarı Nelson Liu, bir PDF’nin tamamını bir dil modeli bağlam penceresine yerleştirmeye çalışırsanız ve ardından belge hakkında sorular sorarsanız, bir vektör veritabanı aramasının kullanımının genellikle daha verimli olacağı konusunda hemfikirdir.
Liu, “Çok sayıda belge üzerinde arama yapıyorsanız, en azından şimdilik arama için oluşturulmuş bir şey kullanmak istersiniz,” dedi.
Ancak Liu, çalışmanın tüm belgeleri bir bağlam penceresine yapıştırmanın işe yaramayacağını iddia etmediği konusunda uyardı. Sonuçlar, özellikle LLM’lerin analiz ettiği belgelerde yer alan içeriğin türüne bağlı olacaktır. Liu, dil modellerinin yakından ilişkili veya alakalı görünen birçok şeyi ayırt etmede kötü olduğunu açıkladı. Ancak diğer pek çok şey alakalı olmadığında açıkça alakalı olan tek şeyi bulmakta iyidirler.
“Bu yüzden ‘Her zaman bir vektör veritabanı kullanmalısın veya asla bir vektör veritabanı kullanmamalısın’dan biraz daha incelikli olduğunu düşünüyorum” dedi.
Dil modellerinin en iyi kullanım durumu: İçerik oluşturma
Liu, çalışmasının, ticari uygulamaların çoğunun, birden fazla olası sonucu bir bağlam penceresine döndürmeye yardımcı olmak için bir tür vektör veritabanı kullandıkları bir ortamda çalıştığını varsaydığını söyledi. Çalışma, bağlam penceresinde daha fazla sonuca sahip olmanın her zaman performansı iyileştirmediğini buldu.
Dil işlemede bir uzman olarak Liu, insanların neden bunu yapmak isteyebileceklerini anlayabildiğini söylemesine rağmen, insanların içerik aramak veya içeriği bir araya getirmek veya sentezlemek için bir bağlam penceresi kullanmayı düşünmelerine şaşırdığını söyledi. İnsanların içerik oluşturmak için en iyi kullanılan dil modellerini ve içerik aramak için en iyi arama motorlarını düşünmeye devam etmesi gerektiğini söyledi.
“Her şeyi bir dil modeline atabileceğiniz ve işe yaraması için dua edebileceğiniz umudu, henüz orada olduğumuzu sanmıyorum” dedi. “Ama belki birkaç yıl, hatta birkaç ay içinde orada olacağız. Bu alanın ne kadar hızlı hareket edeceği benim için çok net değil ama bence şu anda dil modelleri vektör veritabanlarının ve arama motorlarının yerini almayacak.”
VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji ve işlemler hakkında bilgi edinmeleri için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.
Kaynak : https://venturebeat.com/ai/stanford-study-challenges-assumptions-about-language-models-larger-context-doesnt-mean-better-understanding/