Neden yapay sinir ağları değil de derin öğrenme?
Geoffrey Hinton, yapay sinir ağları alanında öncü ve çok katmanlı algılayıcı ağlarını eğitmek için geri yayılım algoritmaları üzerine yayınlanan ilk makalenin de ortak yazarı. Geniş yapay sinir ağlarının gelişimini tanımlamak için kullandığı “derin” tabirini de o tanıtmış olabilir.
2006’da, ortak yazarlığını yaptığı “Derin İnanç Ağları için Bir Hızlı Öğrenme Algoritması” başlıklı makalede, kısıtlı Boltzmann makinelerinin “derinliklerini” (çok katmanlı ağdaki gibi) eğitmek için bir yaklaşım tanımladılar. Tamamlayıcı öncelleri kullanarak, en üstteki iki katmanın yönlendirilmemiş bir çağrışımlı bellek oluşturması kaydıyla, derin, yönlendirilmiş inanç ağlarını her seferinde bir katman olacak şekilde öğrenen hızlı, açgözlü bir algoritma türettik.
Bu makale ve yönlendirilmemiş derin ağlar üzerine Geoff’un ortak yazarlığını yaptığı “Derin Boltzman Makineleri” başlıklı ilişkili makale topluluk tarafından çok güzel karşılandı (şimdilerde yüzlerce kez alıntılanmış durumda) çünkü ağların açgözlü katman-bilgini eğitimi için başarılı birer örneklerdi ve beslemeli ağlarda daha birçok katmana izin veriyordu. Science’taki ortak yazım “Verinin Boyutluluğunu Sinir Ağlarıyla Azaltmak” başlıklı makalelerinde “derin” tabirinin aynı tanımına sadık kalıyor ve önceki tipik örneklerden çok daha fazla katman geliştirmeye dair yaklaşımlarını tarif ederken kullanıyorlar.
Derin otokodlayıcı ağlarının, bir verinin boyutsallığını düşürecek bir araç olarak temel bileşenler analizinden çok daha iyi çalışan düşük boyutlu kodları öğrenebilmesini sağlayan ağırlıkları başlatacak etkin bir yöntem tarif ediyoruz.
Aynı makalede, Andrew Ng’nin, hesaplama gücünün son zamanlardaki artışına ve daha geniş ölçeklerde kullanıldığında sinir ağlarının daha önce kullanılmamış kapasitesini serbest bırakan geniş veri setlerine erişim üzerine yaptığı yorumla uyuşan enteresan bir yorum da yapıyorlar.
1980'lerden bu yana, derin otokodlayıcılar aracılığıyla geri yayılımın, bilgisayarların yeterince hızlı olması, veri kümelerinin yeterince büyük olması ve başlangıç ağırlıklarının iyi bir çözüme yeterince yakın olması koşuluyla, doğrusal olmayan boyutsallığın azaltılması için çok etkili olacağı aşikardı. Artık üç koşul da sağlandı.
Royal Society’deki 2016 tarihli “Derin Öğrenme” konuşmasında, Geoff, Derin İnanç Ağlarının 2006’da derin öğrenmenin başlangıcı olduğunu ve bu yeni derin öğrenme akımının ilk başarılı uygulamasının da 2009’da yapılan “Derin İnanç Ağlarını kullanarak Akustik Öğrenme” başlıklı bir teknoloji harikası olan konuşma tanıma olduğunu söylüyor. Alınan sonuçlar, konuşma tanıma ve sinir ağları topluluklarının dikkatini çekti ve “derin” kelimesinin, bunun önceki sinir ağları sistemlerinden farkını anlatmak için kullanılması büyük ihtimalle isim değişikliğine sebep oldu.
Royal Society konuşmalarındaki derin öğrenme tanımları son derece geri yayılım odaklı, tahmin edileceği üzere. Enteresan bir şekilde, geri yayılımın (“derin öğrenme” olarak okuyun) geçen sefer, 1990'larda neden yükselişe geçmediğine dair 4 sebep sunuyor. İlk iki nokta Andrew Ng’nin yukarıda bahsettiğimiz veri setlerinin fazla küçük olması ve bilgisayarların fazla yavaş olması yorumuyla örtüşüyor.
Etki Alanları Arası Ölçülebilir Öğrenme olarak Derin Öğrenme
Derin öğrenme, girdilerin (ve hatta çıktıların) analog olduğu problem etki alanlarında sivriliyor. Yani, çizelge formatındaki birkaç nicelik değil de piksel verilerin görselleri, yazılı verilerin belgeleri ya da ses verilerinin dosyaları.
Yann LeCun Facebook Araştırma’nın yöneticisi ve Evrişimli Sinir Ağı (CNN) olarak adlandırılan, görüntü verilerinde nesne tanımada mükemmelleşmiş ağ mimarisinin babasıdır. Bu teknik büyük başarı sergiliyor çünkü tıpkı çok katmanlı algılayıcı beslemeli sinir ağları gibi, bu teknik de veri ve model boyutuyla ölçekleniyor ve geri yayılımla eğitilebiliyor. Bu da, fotoğraflarda nesne tanıma konusunda büyük başarılar sergilemiş olan çok geniş CNNlerin gelişimi olarak verdiği derin öğrenme tanımı konusundaki fikirlerinin tarafsızlığını etkiliyor.
Lawrence Livermore Ulusal Laboratuvarı’nda 2016’da verdiği “Hızlanan Anlayış: Derin Öğrenme, Akıllı Uygulamalar ve GPUlar” başlıklı konuşmasında, derin öğrenmeyi genel olarak hiyerarşik temsilleri öğrenmek olarak açıklıyor ve tanımını, nesne tanıma sistemleri inşa etmede ölçülebilir bir yaklaşım olarak veriyor:
derin öğrenme […] hepsi eğitilebilir olan modüllerden bir boru hattı. […] derin, çünkü bir nesneyi tanıma sürecinde birçok aşaması var ve bütün o aşamalar eğitimin bir parçası. Jurgen Schmidhuber, MLP'ler ve CNN'ler gibi model boyutu ve veri seti boyutu ile ölçeklenen ve geri yayılım ile eğitilebilen ama bunun yerine öğrenme sırası verilerine uyarlanan, Uzun Kısa Süreli Bellek Ağı (LSTM) olarak adlandırılan başka bir popüler algoritmanın, bir tür tekrarlayan sinir ağının babasıdır.
Alanın “derin öğrenme” olarak ifade edilmesinde birtakım karışıklıklar gördüğümüz doğru. 2014’te yayınladığı “Sinir Ağlarında Derin Öğrenme: Kısa bir Bakış” başlıklı yazısında o da alanın problematik adlandırması ve derin öğrenmenin yüzeysel olandan farkı üzerine yorumda bulunuyor. Ayrıca ilginç bir biçimde derinliği, problemi çözmek için kullanılan modelden ziyade problemin karmaşıklığı üzerinden tanımlıyor. Problemin hangi derinliğinde Yüzeysel Öğrenme biter ve Derin Öğrenme başlar? DL uzmanlarıyla yapılan tartışmalar henüz bu soruya ikna edici bir cevap vermiş değil. … izin verin bu kısa bakışın amacı için tanımlayalım: derinlik > 10 olan problemler Çok Derin Öğrenme gerektirir. Demis Hassabis, sonradan Google tarafından alınan DeepMind’ın kurucusu. DeepMind, Atari oyunları oynarken ya da Alpha Go ile Go oynarken gösterildiği üzere, oyun oynamak gibi karmaşık öğrenme problemlerinin altından kalkabilmek için derin öğrenme teknikleriyle takviyeli öğrenmeyi birleştiren atılımı yaptı.
Adlandırmaya sadık kalarak, Derin Öğrenmeyle Q-öğrenmeyi birleştirip yeni tekniklerine Derin Q-Ağı dediler. Ayrıca çalışmanın daha geniş bir alanını da adlandırdılar, “Derin Takviyeli Öğrenme”.
2015 tarihli, Nature’da yayınlanan “Derin takviyeli öğrenmeyle insan-seviyesinde kontrol” makalelerinde, yaptıkları atılımda derin sinir ağlarının önemli rolü üzerine konuşuyor ve hiyerarşik soyutlama gereksinimini vurguluyorlar.
Bunu başarmak için, takviye öğrenimini derin sinir ağları olarak bilinen bir yapay sinir ağı sınıfı ile birleştirebilen yeni bir birim, bir derin Q-ağı (DQN) geliştirdik. Özellikle, verilerin giderek daha soyut temsillerini oluşturmak için birkaç düğüm katmanının kullanıldığı derin sinir ağlarındaki son gelişmeler, yapay sinir ağlarının nesne kategorileri gibi kavramları doğrudan ham duyusal verilerden öğrenmesini mümkün kıldı. Son olarak, Yann LeCun, Yoshua Bengio ve Geoffrey Hinton, Nature’da basitçe “Derin Öğrenme” başlığı altında basılan, alan için tanımlayıcı olarak görülecek olan makaleyi yazdılar. Burada, çok katmanlı yaklaşımı vurgulayan temiz bir derin öğrenme tanımıyla başlıyorlar.
Derin öğrenme, çoklu işleme katmanlarından oluşan hesaplama modellerinin, birden fazla soyutlama seviyesine sahip verilerin temsillerini öğrenebilmesini sağlar.
Daha sonra çok katmanlı yaklaşım, temsil öğrenimi ve soyutlama üzerinden tanımlandı. Derin öğrenme yöntemleri, her biri temsili bir seviyeden alıp (ham girdiyle başlayarak) daha yüksek, biraz daha soyut bir seviyedeki bir temsile dönüştüren basit ama doğrusal olmayan modüller oluşturarak elde edilen çok seviyeli temsillere sahip temsil öğrenme yöntemleridir. […] Derin öğrenmenin kilit noktası, bu özellik katmanlarının insan mühendisler tarafından tasarlanmamış olmasıdır: genel-amaç öğrenimi prosedürü kullanarak verilerden öğreniliyorlar.
Bu güzel ve genel geçer bir tanım ve çoğu yapay sinir ağı algoritmasını kolayca tarif edebilir. Ayrıca kapanışı yapmak için de güzel bir not.
Özet
Bu yazıda, derin öğrenmenin sadece daha büyük bilgisayarlar gerektiren, daha çok veri üzerinde çalışan çok büyük sinir ağları olduğunu keşfettiniz. Her ne kadar Hinton ve ortakları tarafından yayınlanan erken dönem yaklaşımlar açgözlü katman-bilgini eğitime ve otokodlayıcılar gibi gözetimsiz yöntemlere odaklansalar da, günümüzün modern ve gelişmiş derin öğrenmesi, geri yayılım algoritmaları kullanarak derin (çok katmanlı) sinir ağı modellerinin eğitilmesine odaklanıyor. En popüler teknikler ise şöyle:
Çok katmanlı Algılayıcı Ağları
Evrişimli Sinir Ağları
Uzun Kısa Süreli Bellek Tekrarlı Sinir Ağları
Umarım bu yazı, derin öğrenmenin ne olduğu ve farklı tanımlamaların tek bir çatı altında nasıl toplandığı konusuna açıklama getirmiştir.