Speech2Face: Sesin Arkasındaki Yüzü Öğrenen Yeni Bir Makine (Algoritma)

Speech2Face: Sesin Arkasındaki Yüzü Öğrenen Yeni bir Makine (Algoritma)

Abone Ol

Zafer Ogün Sefer 5 yıl önce

671263 kişi okudu

Sadece birinin sesini kullanarak gerçeğe yakın vesikalık fotoğraflar üreten yeni bir algoritma geliştirildi. Üretilen portrelerin neredeyse aynı yakınlığa sahip olması da robotik mühendisliğin ne hızla geliştiğinin bir göstergesi olabilir.

Teknoloji, isteyip beğenmeseniz de hakkımızda birçok şeyi zaten biliyor. Bilmediklerini de öğrenmeye devam ediyor. Bunu dolaylı yoldan yaptıklarından bizde hiçbir şey anlamıyoruz. Örneğin: iPhone telefonların şu an size ait Ses izi (SİRİ Aracılığıyla) Parmak izi (Touch ID Aracılığıyla) ya da Fotoğraf (Face ID Aracılığıyla) belgelerine ve algoritmalara sahip olduğunu biliyor muydunuz?

Neyi sevdiğimizi, nerede olduğumuzu, nasıl hissettiğimizi çözebilen cihazlar geliştikçe daha önce söylemediğimiz ya da yapmadığımız şeyleri söylememize ya da yapmamıza bile sebep olabilir. İşte geliştirilen bu yeni sesten yüz tanıma algoritması da benzer şekilde çalışıyor diyebiliriz. Sesinizin temel olarak neye benzediğinizi daha önce benzer ses aralığında kaydedilmiş geniş bir veri tabanı üzerinden araştırıp ortak paydalar alarak size sunuyor.

Nasıl Çalışıyor?

Mit araştırmacıları, geçen ay, Speech2Face algoritmasının bir ses kaydına dayanarak nasıl yüz oluşturabileceğini araştıran “Sesin arkasındaki yüzü öğrenme” adlı makale yayınladı. Bu konuşmacının kesin bir tasviri değildi. Ancak kağıttaki bilgilere dayanarak sistem doğru cinsiyet, ırk, yaş ve nötr bir ifadeyle öne çıkan bir yüz görüntüsü yaratabildi.

Speech2Face

Araştırmaya göre, araştırmacılar derin sinir ağını 100.000’den fazla konuşmacı sesi ve milyonlarca eğitici YouTube klibi görüntüsü ile eğitmişlerdir.

Araştırmacılar, yöntemlerinin, bu kısa ses kliplerine dayanarak bir kişinin kesin görüntülerini oluşturmadıklarını not etmelerine rağmen, araştırma da gösterilen örnekler, ortaya çıkan portrelerin, kişinin gerçekte neye benzediğini en yakın biçimde göstermektedir. Görüntüye göre birisini tanımlayabilmeniz için yeterince benzer görüntüler oluşmayabilir, ancak ilkel bir biçimde bile olsa bir algoritmanın tahmin edebileceği ve üretebileceği yeni bir gerçeğe belki de geleceğe yöneliyoruz.

Araştırmacıların düşünceleri

Araştırmacılar, makalelerinde, geliştirilen bu algoritmanın “bir kişinin gerçek kimliğini” ortaya koymadığını ancak “ortalama görünümlü yüzler” ortaya çıkardığı gerçeğiyle ilgili insanları etik düşüncelere yöneltmektedir.

Gizlilik politikaları ile başı oldukça derde girmek üzere olan şirketin, modellemelerinde kullandığı veri türleri üzerinden bazı ciddi etik suçlamalar aldığı da bilinen bilgiler arasında.

Speech2Face Örnekler

Veri setine kendi izni olmadan (haberi olmadan) dahil olan ve sesinin görüntü oluşturmada algoritmaya yardım ettiğini savunan bireylerden biri olan Slate Youtube üzerinde yayınladığı ve yakın zamanda belirli telif haklarından dolayı silmek zorunda olduğu videosunun ses dosyalarına hala şirketin erişmesi üzerine böyle bir feragatname imzalamadığını ya da en azından bunları içeren bir madde hatırlamadığını iletti. Ancak videolar ve ses verileri şirketin veri tabanında kaldığından ve kamuya açık bir bilgi paylaşımı olmadığı gerekçeleriyle herhangi bir suçlama almadı. Şimdilik şirket bu bilgileri ve dosyaları sadece kendi amaçları uğruna, algoritmayı geliştirmek ve çok daha benzer görseller (portreler) oluşturmak için kullanmayı planlıyor.

Slate konuyla ilgili kendi bloğundan yaptığı açıklamada

“İmajım ve sesim Speech2Face gazetesinde örnek olarak seçildiğinden sadece istatistiksel bir çalışmada veri noktası olarak kullanılmadan önce beni bilgilendirmek veya iznimi istemek ya da uzlaşmak kibarlık olurdu.” Dedi.

Araştırmacılar, çalışmalarında, kullandıkları veri kümesinin, yalnızca Youtube’daki belirli bir video alt kümesinden çekildiği için dünya nüfusuna yönelik doğru bir temsili portre olmadığını belirtiyor. Bu nedenle önyargılı olmayı bırakmaları ve makine öğrenmesi ile veri kümeleri arasında olan ortak bir konu için insanların etik düşüncelere dalmamaları yönünde uyarıyor. Elbette bu tip bir sistemin istismar edilmesinin birçok yolu vardır. Eğer birisi ses kaydına ve ilgili veri tabanına bir şekilde erişebilirse ve hatta birinin daha gerçekçi tasvirlerini yaratmanın bir yolunu bulursa, anonimliğin gittikçe artacağı bir geleceğe işaret edebilir.

Yorumlar (0 )

Ziyaretçi olarak yorum yapıyorsunuz. Yorumu Gönder