Hey Alexa, sırada ne var? Ses teknolojisinin tavanını kırmak


Amazon’dan Alexa departmanı için personel ve bütçeyi azaltacaklarına dair son duyuru, ses asistanını “devasa bir başarısızlık” Bunun ardından, bir endüstri olarak sesin durgunlaştığı (veya daha da kötüsü düşüşte olduğu) tartışıldı.

Söylemeliyim ki, katılmıyorum.

Bu sesin kullanım durumu tavanına ulaştığı doğru olsa da, bu durgunluk anlamına gelmez. Bu basitçe, teknolojinin mevcut durumunun, gelişmesini istiyorsak anlamamız gereken önemli birkaç sınırlaması olduğu anlamına gelir.

Basitçe söylemek gerekirse, günümüz teknolojileri insan standardını karşılayacak şekilde performans göstermiyor. Bunu yapmak için üç yetenek gerekir:

  1. Üstün doğal dil anlayışı (NLU): Bu yönü fetheden birçok iyi şirket var. Teknoloji yetenekleri, söylediklerinizi anlayabilecekleri ve insanların ne istediklerinden bahsedebilecekleri olağan yolları bilebilecekleri şekildedir. Örneğin, “Soğanlı hamburger istiyorum” derseniz, soğanı ayrı bir poşette değil, hamburgerin üzerinde istediğinizi bilir.
  2. Ses meta verisi çıkarma: Ses teknolojisinin bir konuşmacının mutlu mu yoksa sinirli mi olduğunu, mikrofondan ne kadar uzakta olduğunu, kimliklerini ve hesaplarını algılayabilmesi gerekir. Sizin veya başka birinin ne zaman konuştuğunu anlaması için sesi yeterince tanıması gerekir.
  3. Çapraz konuşma ve bağlanmamış gürültünün üstesinden gelin: Diğer insanlar konuşurken ve gürültü giderme algoritmaları tarafından bağımsız olarak erişilemeyen gürültüler (trafik, müzik, gevezelik) olduğunda bile karşılıklı konuşma varlığında anlama yeteneği.

İlk ikisini başaran firmalar var. Bu çözümler genellikle, arka plan gürültüsünün çoğunlukla iptal edildiği tek bir hoparlör olduğunu varsayan sesli ortamlarda çalışacak şekilde oluşturulur. Ancak, birden çok gürültü kaynağına sahip tipik bir kamu ortamında, bu sorgulanabilir bir varsayımdır.

Ses teknolojisinin “kutsal kâsesine” ulaşmak

Bir dakikanızı ayırıp iptal edilebilen ve edilemeyen gürültü ile ne demek istediğimi açıklamak da önemlidir. Bağımsız erişiminizin olduğu gürültü (bağlı gürültü) iptal edilebilir. Örneğin, ses kontrolü ile donatılmış arabaların, araç hoparlörlerinde oynatılan içeriğe bağımsız elektronik erişimi (bir akış hizmeti aracılığıyla) vardır.

Bu erişim, bu içeriğin mikrofonlarda yakalandığı şekliyle akustik versiyonunun, iyi kurulmuş algoritmalar kullanılarak iptal edilebilmesini sağlar. Ancak sistem, araç yolcuları tarafından konuşulan içeriğe bağımsız elektronik erişime sahip değildir. Ben buna bağlı olmayan gürültü diyorum ve iptal edilemez.

Bu nedenle üçüncü yetenek – karışma ve bağlanmamış gürültünün üstesinden gelme – mevcut ses teknolojisi için tavandır. Bunu diğer ikisiyle birlikte başarmak, tavanı kırmanın anahtarıdır.

Her biri kendi başına size önemli yetenekler sağlar, ancak üçü birlikte – ses teknolojisinin kutsal kâsesi – size işlevsellik sağlar.

kasaba hakkında konuşmak

Alexa ile 10 milyar dolar kaybedecek bu yıl, neyin yanlış gittiğine dair bir test vakası haline gelmesi doğal. İnsanların genellikle sesli asistanlarıyla nasıl etkileşim kurduğunu düşünün:

“Saat kaç?”

“Şunun için bir zamanlayıcı ayarla…”

“Bana şunu hatırlat…”

“Annemi ara – ANNEYİ ARAMA.”

“Ron’u arıyorum.”

Sesli asistanlar, sizinle anlamlı bir şekilde etkileşim kurmaz veya birkaç dakika içinde başaramayacağınız kadar fazla yardım sağlamaz. Elbette size biraz zaman kazandırırlar, ancak anlamlı, hatta biraz karmaşık görevleri yerine getirmezler.

Alexa, genel sesli yardımda kesinlikle çığır açan bir öncüydü, ancak özel, fütüristik ticari konuşlandırmalar söz konusu olduğunda sınırlamaları vardı. Bu durumlarda, sesli asistanların veya arabirimlerin ses meta verisi çıkarma, kullanıcıyla insan benzeri etkileşim ve halka açık yerlerde çapraz konuşma direnci gibi kullanım durumuna özel yeteneklere sahip olması kritik öneme sahiptir.

Mark Pesce olarak yazar“[Voice assistants] asla kullanıcı ihtiyaçlarını karşılamak için tasarlanmamıştır. Sesli asistan kullanıcıları onun müşterisi değil, ürünüdür.”

Sesle yönlendirilen yüksek kaliteli etkileşimlerle dönüştürülebilecek çok sayıda sektör var. Restoran ve konaklama endüstrilerini ele alalım. Kişiselleştirilmiş deneyimler arzu ediyoruz.

Evet, siparişime patates kızartması eklemek istiyorum.

Evet, Geç check-in istiyorumo gün uçağımın geç kalkacağını hatırlattığın için teşekkür ederim.

Mcdonald’s ve Taco Bell gibi ulusal fast-food zincirleri, konuşmalı yapay zekaya yatırım yapmak arabaya servis sipariş sistemlerini düzene koymak ve kişiselleştirmek için.

İnsan standardını karşılayan ses teknolojisine sahip olduğunuzda, ses teknolojisinin sadece bir lüks olmadığı, aslında daha yüksek verimlilikler yarattığı ve anlamlı değer sağladığı ticari ve kurumsal ortamlara girebilirsiniz.

kulaktan kulağa çal

Bununla birlikte, bu senaryolarda sesle akıllı kontrolü etkinleştirmek için teknolojinin, bağlanmamış gürültünün ve çapraz konuşmanın sunduğu zorlukların üstesinden gelmesi gerekir.

Yalnızca ilgilenilen sesi duyması değil, aynı zamanda belirli biyobelirteçler gibi meta verileri sesli olarak çıkarabilme yeteneğine de sahip olması gerekir. Meta verileri çıkarabilirsek, ses teknolojisinin duygu, niyet ve ruh halini anlama yeteneğini de açmaya başlayabiliriz.

Ses meta verileri de kişiselleştirmeye izin verecektir. Kiosk, kim olduğunuzu tanıyacak, ödül hesabınızı açacak ve ücreti kartınıza yüklemek isteyip istemediğinizi soracaktır.

Sesli yemek siparişi vermek için bir restoran büfesiyle etkileşim kuruyorsanız, muhtemelen yakınlarda başka insanların konuşup sipariş verdiği başka bir büfe olacaktır. Sadece sizin sesinizi farklı algılamakla kalmamalı, aynı zamanda sizin sesinizi onlarınkinden ayırt etmeli ve emirlerinizi karıştırmamalıdır.

Ses teknolojisinin insan standardı düzeyinde performans göstermesinin anlamı budur.

Bana kulak ver

Sesin bu mevcut tavanı aşmasını nasıl sağlayacağız?

Bunun bir teknolojik yetenekler meselesi olmadığını iddia ediyorum. İmkanlarımız var. Şirketler inanılmaz NLU geliştirdiler. Ses teknolojisinin insan standardını karşılaması için en önemli üç yeteneği bir araya getirebilirseniz, oraya giden yolun %90’ını tamamlamış olursunuz.

Ses teknolojisinin son aşaması birkaç şey gerektirir.

Öncelikle, ses teknolojisinin gerçek dünyada test edilmesini talep etmemiz gerekiyor. Çok sık olarak, laboratuvar ayarlarında veya simüle edilmiş gürültü ile test edilir. “Doğada” olduğunuzda, farklı seslerin ve seslerin araya girdiği dinamik ses ortamlarıyla uğraşırsınız.

Gerçek dünyada test edilmemiş ses teknolojisi, gerçek dünyada devreye alındığında her zaman başarısız olacaktır. Ayrıca, ses teknolojisinin karşılaması gereken standartlaştırılmış kriterler olmalıdır.

İkincisi, ses teknolojisinin gerçekten sınırlarını zorlayabileceği, kritik sorunları çözebileceği ve verimlilik yaratabileceği belirli ortamlarda konuşlandırılması gerekir. Bu, yönetim kurulu genelinde ses teknolojilerinin daha geniş bir şekilde benimsenmesine yol açacaktır.

Neredeyse oradayız. Alexa hiçbir şekilde ses teknolojisinin düşüşte olduğunun işareti değildir. Aslında, endüstrinin yeni bir yolu aydınlatması ve ses teknolojisinin sunduğu her şeyi tam olarak gerçekleştirmesi için tam olarak ihtiyaç duyduğu şey buydu.

Hamid Nawab, Ph.D. Yobe’nin kurucu ortağı ve baş bilim adamıdır.

DataDecisionMakers

VentureBeat topluluğuna hoş geldiniz!

DataDecisionMakers, veri işini yapan teknik kişiler de dahil olmak üzere uzmanların verilerle ilgili içgörüleri ve yenilikleri paylaşabileceği yerdir.

En yeni fikirler ve güncel bilgiler, en iyi uygulamalar ile veri ve veri teknolojisinin geleceği hakkında okumak istiyorsanız DataDecisionMakers’ta bize katılın.

Kendi makalenizle katkıda bulunmayı bile düşünebilirsiniz!

DataDecisionMakers’dan Daha Fazlasını Okuyun


Kaynak : https://venturebeat.com/virtual/hey-alexa-whats-next-breaking-through-voice-technologys-ceiling/

Yorum yapın

SMM Panel PDF Kitap indir