Google’ın Resimden Yer Tahmini Yapan Muazzam Yapay Zeka Çalışması Gerçek Oluyor

1619
Shazam tarzındaki uygulamalara son yıllarda oldukça aşina olduk. Ortamdaki sesi tanıyıp bundan şarkı ismini bulmak özellikle müzik severler için birkaç yıl evvel hayal edilemeyecek bir şeydi. Yapay zeka uygulamalarına verilen önem giderek artarken bu gibi ürünler de hızlı bir biçimde karşımıza çıkıyorlar. Google’ın son çalışması da bunun tipik bir örneği.

Örneğin internetten rastgele bir resim seçelim. Bu resmin nerede çekildiğini sadece resmin kendisine bakarak tahmin etmeye çalışalım. Resmin içeriğinde Eyfel Kulesi, Özgürlük Anıtı gibi ünlü binalar varsa ne ala. Bu gibi durumlarda işimiz oldukça kolaylaşıyor. Fakat elimizde bu tarz kolaylaştırı ipuçları yoksa tahmin etmek imkansıza yakın.

Yine de insanlığın bu konuda oldukça iyi olduğunu söylemek gerek. Resimler üzerinden, beslenme alışkanlığı, mimari stiller trafiğin yönü gibi pek çok etkene bakarak ipucu yakalayabiliyoruz. Makinelerin de bu işi bir gün yapacağına inananlardansanız büyük bir yanılgı içindesiniz. Çünkü makineler bundan daha fazlasını yapabiliyor. Google’da bilgisayar görüşü uzmanı olan Tobias Weyand ve birkaç arkadaşı, bir makineyi, herhangi bir resmin pikselleri üzerinden konum saptayabilecek şekilde eğittiler. Bunu makine dünyasında oldukça basit gözüken bir yöntemle yaptılar. Şöyle ki:

Weyand ve arkadaşları dünyayı 26000’den fazla kare içeren, o bölgede çekilmiş resim sayısına bağlı büyüklükte parçalara bölmüşler. Bu sayede çokça fotoğrafın öznesi olan büyük şehirler, ücra yerlere nazaran daha detaylı parçalara sahip olmuşlar. Okyanus ve Kutup bölgeleri gibi sadece az sayıda fotoğrafa konu olan yerler ise göz ardı edilmiş.

Sonra internet üzerinden alınan fotoğraflardaki konum bilgilerinden yaratılan veri tabanı ile küçük karelerden oluşan parçalarının konumu saptanmaya çalışılmış. Bu çalışma o kadar büyük ki konum bilgisi içeren tam 126 milyon resimden oluşuyor. Weyand ve ekibi bu resimlerin 91 milyonunu kullanarak oldukça güçlü bir yapay sinir ağı oluşturmuş. Bu ağa bir resim gönderip onun yerini ya da ona en yakın yeri tespit edebilmek Weyand’ın temel fikri. PlaNet ismini verdikleri sistemlerini Flickr’dan 2.3 milyon fotoğrafla test etmişler. Sistem bu resimlerin %3.6’sında sokağı, %10.1’inde şehri, %28.4’ünde ülkeyi ve %48’inde kıtayı doğru bir biçimde tespit edebilmiş.

Bu sonuçların ne kadar iyi olduğunu anlayabilmemiz için de 10 gezgine, oyunu oynayan kişiye Google Street View’dan alınmış resimlerin gösterildiği online bir oyun oynatmışlar. Bu oyunu şu adresten oynayabilirsiniz. PlaNet’in insanları yendiğini söylemeye gerek yok herhalde. Asıl soru şu: PlaNet, insanların kullandığı, beslenme alışkanlığı, mimari gibi ipuçları olmadan bunları nasıl başarıyor? Weyand bu soruyu “PlaNet’in insanlara göre bu konuda avantajlı olmasının sebebi iyi bir gezginin dahi ayırt edemeyeceği ince detaylar içeren çok sayıda resmin kendisine öğretilmiş olması” olarak cevaplıyor.

Ekip daha da ileriye giderek ipucu içermeyen örneğin iç mekan gösteren bir resmin yerini tespit ettirmeye çalışıyor. Eğer resim aynı yerde çekilmiş resimlerden oluşan bir albümün parçasıysa bu mümkün. PlaNet, albümdeki diğer resimlerin konum bilgilerini kolayca algılayıp diğer resmin de orada çekilmiş olduğunu varsayıyor. Bu uygulamanın sadece 377 Megabaytlık bir alan kullandığını söylersek eminim siz de epey şaşıracaksınız. Belki de çok yakında akıllı telefonlarımızda kullandığımız bir uygulama haline gelecek. Bunun pek de uzun sürmeyeceği aşikar.

Kaynak

 

Siz Bu Konu Hakkında Ne Düşünüyorsunuz?