Lightly, AI için veri iyileştirmeyi optimize etmek için kendi kendini denetleyen öğrenmeye yöneliyor


Tüm makine öğrenimi modelleri kritik bir faktöre bağlıdır: Modelin eğitildiği verilerin kalitesi.

Makine öğrenimi ve yapay zeka modellerinin kalitesini artırmak için veri iyileştirmenin zorluğu iyi anlaşılan bir sorundur. Bir 2021 MIT araştırma çalışması, eğitim verilerinin nasıl etiketlendiğiyle ilgili sistemik sorunlar buldu ve bu da AI sistemlerinde hatalı sonuçlara yol açtı. Dergide bir çalışma Nicel Bilim Çalışmaları Veri etiketlemeyle ilgili önceki 141 araştırmayı analiz eden bir araştırma, modellerin %41’inin insanlar tarafından etiketlenmiş veri kümelerini kullandığını buldu.

AI için veri küratörlüğünü optimize etme zorluğunun üstesinden gelmeye çalışan satıcılar arasında İsviçreli bir startup var. Hafifçe. 2019 yılında kurulan şirket, bu hafta bir tohum finansman turunda 3 milyon dolar topladığını duyurdu. Bununla birlikte, Lightly bir veri etiketleme satıcısı olmak istemiyor. Bunun yerine şirket, bir gün veri etiketleme işlemlerine olan ihtiyacı tamamen azaltabilecek, kendi kendini denetleyen bir makine öğrenimi modeli kullanarak verileri düzenlemeye yardımcı olmak istiyor.

Lightly’nin kurucu ortağı Matthias Heller, VentureBeat’e “Makine öğrenimindeki çalışmaların ne kadarının manuel, çok sıkıcı ve hiç otomatikleştirilmediğine şaşırmaya devam ediyorum” dedi. “İnsanlar her zaman makine öğrenimi ile her şeyin çok gelişmiş olduğuna inanırlar, ancak özellikle makine öğrenimi ve derin öğrenme çok genç bir teknolojidir ve birçok araç ve altyapı henüz kullanıma sunulmuştur.”

Veri iyileştirme ve veri etiketleme için büyüyen bir pazar

Veri iyileştirme veya veri etiketleme olsun, makine öğrenimi için verileri optimize etmeye yardımcı olacak piyasada para veya satıcı sıkıntısı yoktur.

Örneğin, 2021’de yeniden markalaşmadan önce DefinedCrowd olarak bilinen Defined.ai, veri iyileştirme vizyonunu geliştirmeye yardımcı olmak için bugüne kadar 78 milyon dolar topladı.

Ve Grand View Research, veri etiketleme pazarının 2021 ile 2028 arasında öngörülen yıllık bileşik büyüme oranı %24,6 ile 2028 yılına kadar 8,2 milyar dolara ulaşacağını tahmin ediyor. VentureBeat’in en iyi veri etiketleme yazılımı satıcıları listesinde Appen’s Figure Eight, Amazon Sagemaker yer alıyor. Ground Truth, SuperAnnotate, Dataloop ve V7’nin Darwin’i.

Diğer popüler satıcılar arasında, her ikisi de Lightly’nin teknolojisiyle entegre edilebilen Labelbox ve açık kaynaklı Labelstudio bulunur. Genel olarak, Lightly açık bir yaklaşım planlar, böylece kullanıcılar şirketin teknolojisini herhangi bir etiketleme satıcısıyla kullanabilir.

Kendi kendini denetleyen model nasıl çalışır?

Üç yıl önce Heller ve kurucu ortağı Igor Susmelj, verilerini etiketlemelerini gerektiren bir makine öğrenimi projesi üzerinde çalışıyorlardı.

Heller, “Etiketlediğimiz verilerin modeli geliştirmeye gerçekten yardımcı olup olmadığını her zaman merak ediyorduk” dedi.

Bu, bir dizi açık kaynaklı proje içeren Lightly’ye yol açtı. Birincil proje, Hafif kitaplık, Bu, görüntüler üzerinde makine öğrenimi için kendi kendini denetleyen bir yaklaşım sağlar.

Heller, makine öğrenimi için eğitim verilerine birden fazla yaklaşım olduğunu açıkladı. Bilgisayarla görme gibi denetimli bir yaklaşımda, bir modeli öğretmek için kombinasyon halinde kullanılan bir görüntü ve ilişkili bir etiket vardır ve bir insan etiketlemeyi yapar.

Denetimsiz öğrenme ise bunun tam tersidir – insan etkileşimine gerek yoktur. Hafifçe etkinleştiren kendi kendini denetleyen model, ortada bir yere düşer ve minimum insan etkileşimi gerektirir.

Heller, “Model belirli bilgileri, belirli benzerlikleri, neyin birbirine ait olduğunu ve neyin farklı olduğunu öğrendiğinden, verileri düzenlemek için kendi kendini denetleyen modeli kullanabilirsiniz” dedi.

Açık kaynaktan ticari çözüme

Lightly, açık kaynaklı bir teknoloji olarak ücretsiz olarak kullanılabilse de, yine de kullanıcıların doğru ortamı kurmak ve yapılandırmayı yönetmek için işin çoğunu yapmasını gerektirir.

Lightly’nin ticari hizmeti, tümü kullanıcılar için yapılandırılmış altyapı, ayarlanmış algoritmalar ve öğrenme çerçevesi ile yönetilen bir teklif sunar.

Heller, “Bugünkü ana rekabetimiz şirket içi takımlamadır” dedi. “Model eğitimi için etiketlemeniz ve kullanmanız gereken verilerin %1’ini size söylemek için kendi kendini denetleyen öğrenmeyi kullanıyoruz.”

İleriye bakıldığında Heller, denetimsiz makine öğrenimi gelişmeye devam ettikçe gelecekte veri etiketlemeye artık ihtiyaç duyulmayacağı günün gelebileceğini kışkırtıcı bir şekilde tahmin ediyor.

Heller, “Önümüzdeki birkaç yıl içinde etiket ihtiyacının önemli ölçüde azalacağını düşünüyorum” dedi. “Belki gelecekte artık etiketlere ihtiyacımız olmayacak.”

VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji ve işlemler hakkında bilgi edinmeleri için dijital bir şehir meydanı olmaktır. Üyelik hakkında daha fazla bilgi edinin.


Kaynak : https://venturebeat.com/2022/05/13/to-optimize-data-curation-for-ai-lightly-turns-to-self-supervised-learning/

Yorum yapın