Derin Öğrenme, makine öğreniminin beynin yapısı ve fonksiyonundan alınan ilhamla geliştirilen ve yapay sinir ağları adı verilen algoritmaları içeren bir alt dalıdır.
Eğer derin öğrenme alanında yeniyseniz ya da uzun zaman önce biraz deneyiminiz olduysa kafanız karışabilir. Biliyorum, çünkü 1990'larda ve 2000lerin başında sinir ağlarını öğrenip kullanan birçok iş arkadaşım gibi benim de başlarda kafam karışmıştı.
Alanın liderleri ve uzmanları derin öğrenmenin ne olduğu konusunda birtakım fikirlere sahipler ve bu spesifik ve incelikli bakış açıları, derin öğrenmenin ne olduğu konusuna bir hayli ışık tutuyor.
Bu yazıda, alandaki çeşitli uzmanlar ve liderlerden duyarak derin öğrenmenin aslında tam olarak ne olduğunu keşfedeceksiniz.
Derin Öğrenme, Geniş Sinir Ağlarıdır
Coursera’nın kurucu ortağı ve Baidu Araştırma’da Başmühendis olan Andrew Ng, derin öğrenme teknolojilerinin çok sayıdaki Google hizmetlerinde ürünleştirilmesiyle sonuçlanan Google Brain’i de resmi olarak kuran kişi.
Derin öğrenme hakkında birçok şey söyleyip yazdı ve başlamak için güzel bir nokta.
Derin öğrenmeye dair yapılan ilk konuşmalarda, Andrew derin öğrenmeyi geleneksel yapay sinir ağları bağlamında tanımlamıştı. 2013’te yaptığı “Derin Öğrenme, Kendine-Öğreterek Öğrenme ve Gözetimsiz Öğrenme” başlıklı konuşmasında derin öğrenme fikrini şöyle tarif etti:
Beyin simülasyonlarını kullanarak, umuyorum ki:
-Öğrenme algoritmaları çok daha iyi ve kolay kullanılabilir olacak
-Makine öğrenimi ve AI alanında devrimci ilerlemeler yaşanacak
İnanıyorum ki, bu bizim gerçek AI’a doğru ilerleyişimiz için elimizdeki en iyi fırsat.
Sonrasında yorumları daha incelikli hale geldi.
Andrew’a göre derin öğrenmenin temeli, geniş sinir ağlarını eğitmek için yeterince hızlı bilgisayarlara ve yeterli veriye sahip olmamız. ExtractConf 2015’te “Veri bilimcilerinin derin öğrenme hakkında bilmesi gerekenler” başlıklı konuşmasında derin öğrenmenin neden şimdi şaha kalktığını tartışırken şöyle diyor: şimdi sahip olabileceğimiz çok geniş sinir ağları ve… erişimimiz olan devasa boyutlarda veri var.
Ayrıca her şeyin ölçekle ilgili olduğuna dair önemli bir noktaya da vurgu yaptı. Yani biz daha geniş sinir ağları inşa ettikçe ve onları gittikçe daha da çok veriyle eğittikçe, performansları da artmaya devam ediyor. Bu da performans konusunda bir noktada yatay seyre ulaşan diğer makine öğrenimi tekniklerinden genel olarak farklı.
eski jenerasyon öğrenme algoritmalarının büyük bir kısmı… yatay seyirde performans gösterecek… derin öğrenme… ölçeklenebilen… ilk algoritma sınıfı, … onu daha çok veriyle besledikçe performans da iyileşmeye devam ediyor.
Yaptığı sunumda da bununla ilgili güzel bir çizim veriyor:
Sonunda da şu an pratikte kullanılan derin öğrenmenin faydalarının gözetimli öğrenimden geldiğine işaret ediyor. 2015’teki ExtractConf konuşmasında diyor ki:
bugün derin öğrenmenin değerinin neredeyse tamamı gözetimli öğrenim ya da etiketli verinin öğreniminden geliyor.
Öncesinde Stanford Üniversitesi’ne yaptığı “Derin Öğrenme” başlıklı 2014 konuşmasında da benzer bir yorum yapıyor:
derin öğrenmenin delicesine yükselişe geçmiş olmasının sebebi gözetimli öğrenim konusunda muazzam olması Andrew sıklıkla, alanın kullanılabilir etiketlenmemiş veri olluğuyla uğraşabilecek kadar olgunlaşmasıyla yolun gözetimsiz yanından gelen faydaları daha çok göreceğimizden, görmemiz gerektiğinden bahsediyor.
Jeff Dean, Google’da Sistem ve Altyapı Grubu’nda Kıdemli Araştırmacı ve bir Sihirbaz; Google içindeki derin öğrenmenin uyumu ve ölçeklendirmesiyle ilgileniyordu ve hatta belki de bunun bir kısmi sorumlusuydu. Jeff, Google Brain projesiyle, geniş ölçekli derin öğrenme yazılımı olan DistBelief’in geliştirilmesiyle ve sonra da TensorFlow ile ilgilendi.
“Akıllı Bilgisayar Sistemleri Kurmak için Derin Öğrenme” başlıklı 2016 senesindeki konuşmasında o da benzer minvalde bir yorumda bulunarak derin öğrenmenin gerçekten de tamamen geniş sinir ağlarıyla ilgili olduğunu söyledi.
Derin öğrenme terimini duyduğunuzda sadece geniş derin bir sinir ağı düşünün. Derin, tipik bir şekilde katmanların sayısını ima ediyor ve bu da basın tarafından kullanılan popüler bir terim. Ben onları genel olarak derin sinir ağları olarak düşünüyorum.
Bu konuşmayı birkaç kez yaptı ve aynı konuşma için slaytları değiştirerek kullandı. Sinir ağlarının ölçeklenebilirliğini vurgulayarak daha fazla veri ve daha geniş modellerle sonuçların iyileşeceğini, bunun da karşılığında eğitilmek için daha fazla hesap gerektireceğini gösterdi.
Derin Öğrenme Hiyerarşik Özellik Öğrenimidir
Ölçeklenebilirliğe ek olarak, derin öğrenme modelinin bahsi geçen bir diğer faydası da ham veriden özellik çıkartmayı otomatik olarak gerçekleştirebilme yetisidir, buna da özellik öğrenimi denir.
Yoshua Bengio da geniş sinir ağlarının sahip olduğu otomatik özellik öğrenimi kapasitesine karşı güçlü bir ilgiyle başlamış olsa da derin öğrenme alanındaki bir başka liderdir. Derin öğrenmeyi, özellik öğrenimi kullanarak iyi temsiller öğrenme ve keşfetme yetisine sahip algoritmalar üzerinden tanımlıyor. 2012 yılında yayınladığı “Gözetimsiz ve Transfer Öğrenim için Temsillerin Derin Öğrenmesi” başlıklı makalesi şöyle diyor:
Derin öğrenme algoritmaları, alt düzey özellikler açısından tanımlanan daha üst düzey öğrenilmiş özelliklerle, genellikle birden çok düzeyde iyi temsiller keşfetmek için girdi dağılımındaki bilinmeyen yapıdan yararlanmaya çalışır.
Bu satırlar arasındaki incelikli işlenmiş derin öğrenme perspektifi, özellik öğrenimindeki hiyerarşinin önemine vurgu yaptığı 2009 tarihli teknik raporu “AI için derin mimarileri öğrenme” içinde de karşımıza çıkar.
Derin öğrenme yöntemleri, düşük seviye özelliklerin kompozisyonuyla biçimlendirilen yüksek seviye özelliklere sahip özellik hiyerarşilerini öğrenmeyi hedefler. Çoklu soyutlama seviyelerindeki otomatik öğrenme özellikleri, bir sistemin karmaşık fonksiyonları tamamen insan elinden çıkma özelliklere girdiden çıktıya kadar doğrudan veri üzerinden haritalandırarak öğrenmesini sağlar.
Yakında yayınlanacak olan, Ian Goodfellow ve Aaron Courville ile birlikte yazdıkları “Derin Öğrenme” kitabında derin öğrenmeyi modellerin mimari derinliği üzerinden tanımlıyorlar.
Konseptlerin hiyerarşisi, bilgisayarın karmaşık konseptleri basit olanlar üzerine inşa ederek öğrenebilmesini sağlıyor. Eğer bu konseptlerin birbiri üzerine nasıl inşa edildiğini gösteren bir grafik çizecek olursak, grafik derin olur, birçok katmanı olur. O yüzden bu yaklaşıma AI derin öğrenme diyoruz.
Bu önemli bir kitap ve büyük ihtimalle bu alanda bir süre belirleyici kaynak olarak kullanılacak. Kitap, derin öğrenme alanında kullanılan çok katmanlı algılayıcıları tanımlayarak devam ederek, derin öğrenmenin yapay sinir ağlarını da kapsadığı fikrini uyandırıyor.
Derin öğrenme modelinin en tipik örneği, beslemeli derin ağ ya da çok katmanlı algılayıcıdır (MLP).
Peter Norvig, Google’da Araştırma Yöneticisi ve AI üzerine yazdığı “Yapay Zeka: Modern Bir Yaklaşım” kitabıyla ünlü.
2016’de verdiği “Derin Öğrenme ve Anlaşılabilirliğe karşı Yazılım Mühendisliği ve Teyit” başlıklı konuşmasında, derin öğrenmeyi Yoshua’yla benzer bir şekilde tanımlayıp, daha derin ağ yapıları kullanarak izin verilen soyutlamanın gücüne odaklanıyor.
biçimlendirdiğiniz temsilin, çıktıya yönelik doğrudan girdi yerine muhtelif soyutlama katmanlarına sahip olduğu bir öğrenme biçimi.