Veri madenciliği dijital çağ ile beraber ortaya çıkan yeni bir kavram gibi görünse de 1930’lu yıllarda tüm dünyanın odaklandığı popüler bir kavramdı. Hacker Bit'e göre, veri madenciliğinin ilk modern fikirlerinden biri 1936'da yılında Alan Turing'in günümüz bilgisayarlarına benzer hesaplamalar yapabilen evrensel bir makine fikri ortaya atmasıyla çıkmıştır.
Veri Madenciliği ve Makine Öğrenmesi Arasındaki Fark Nedir?
Forbes Dergisi 1950 yılında bilgisayarların zekalarının olup olmadığını belirlemek için Alan Turing’in geliştirdiği Turing Testi’ni yayınladı. Turing Testi: makineler düşünebilir mi sorusunun cevabını arar.
İki yıl sonra Arthur Samuel, dünyanın ilk kendi kendine öğrenme programı olan Samuel Dama Oynama Programını yarattı. Bu programdaki makinenin en iyi hamleyi çalışarak bulduğunu ve bu sayede kazandığı açıklandı. Bu o dönem için bir mucizeydi. O zamandan günümüze dünya çok yol kat etti, işletmeler artık satış süreçlerinden tutun yatırım amaçlı finans konularını yorumlamaya kadar her şeyi geliştirmek için veri madenciliği ve makine öğreniminden yararlanıyor.
Günümüz şirketleri büyük hedeflerine ulaşmak için veri bilimine ve veri bilimcilere yatırım yapıyor.
Veri Madenciliği, Makine Öğrenmesi ve Veri Bilimi
İş dünyasında büyük verilerin yaygınlaşması ile beraber çoğunun ne anlama geldiği anlaşılmamış pek çok terim ortaya çıktı.
Veri madenciliği nedir? Makine öğrenimi ile veri bilimi arasında bir fark var mıdır? Birbirlerine nasıl bağlanırlar?
Makine öğrenmesi sadece yapay zeka mı?
İşte tüm bu soruların cevapları şirketlere veri bilimi ve analizi hakkında faydalı bir anlayış sağlayacaktır. Hem veri madenciliği hem de makine öğrenmesi veri biliminin konusudur. Fakat ikisini de birbirinden ayıran birkaç özellik vardır.
Bu özellikler aşağıdaki gibidir
Makine öğrenimi ve veri madenciliği arasındaki önemli farklardan biri günlük yaşamda nasıl kullanıldığı ve uygulandığıdır.
Makine öğrenmesi, veri madenciliğini genellikle ilişkiler arasındaki bağlantıları görmek için kullanır.
Uber firması, UberEATS’in yolculuk, öğün teslimat sürelerini hesaplamada makine öğrenmesini kullanıyor. Bunun dışında veri madenciliği, finansal araştırma da dahil olmak üzere çeşitli amaçlar için kullanılabilir. Yatırımcılar bir start-up girişimini değerlendirmek ve finansman sağladıklarında doğru verimi alıp almayacaklarını değerlendirmek için veri madenciliğini kullanabilirler.
Şirketler ayrıca pazarlamadan envanter ihtiyaçlarına kadar her şeyi daha iyi bilgilendirmek ve yeni müşteri adaylarını güvence altına almak için veri madenciliğini kullanabilirler.
Örneğin veri madenciliği; Bir şirketin sosyal yardım kampanyası başlatması için sosyal medya profilleri, web siteleri ve dijital varlıklar incelenerek yani veri madenciliği yapılarak doğru bir sonuç elde edilebilir.
Veri madenciliği ile 10 dakika içinde 10.000 müşteriye ulaşılabilir. Bu kadar bilgiyle bir veri bilimcisi, şirketin gelecek aylarda ve yıllardaki müşterilerin taleplerini ve eğilimlerini tahmin ederek müşterilerine en doğru hizmeti verebilir. Makine öğrenmesi veri madenciliğinin ilkelerini içerir, ancak aynı zamanda otomatik korelasyonlar yapabilir ve onlardan yeni algoritmalar oluşturabilir. Makine öğrenmesi otomobil sürerken hızla yeni koşullara uyum sağlayabilen, kendi kendini süren otomobillerin arkasındaki teknolojidir. Makine öğrenmesi ayrıca bir alıcının Amazon'dan bir ürün satın aldığında anında öneriler sunan teknolojidir. Bu algoritmalar ve analizler sürekli olarak geliştirilmeye yöneliktir, bu nedenle sonuç sadece zamanla (makine öğrenimi ile) daha doğru olacaktır. Makine öğrenmesi bir yapay zeka değildir, ancak öğrenme ve iyileştirme yeteneği ile hala kitleleri etkilemektedir. Günümüzde hala bankalar sahte ödeme işlemlerini tanımlamak ve finansal sektördeki risklerini en aza indirmek için makine öğrenimine yatırım yapmaktadır. Geçtiğimiz dönemlerde CitiBank, çevrim içi ve şahsi bankacılık işlemlerinde gerçek zamanlı olarak mali dolandırıcılığı belirlemek ve ortadan kaldırmak için küresel veri bilimi kuruluşu Feedzai'ye yatırım yapmıştır. Bu teknoloji, sahtekarlığı hızla tespit etmeye ve perakendecilerin finansal faaliyetlerini korumalarına yardımcı olmaktadır.
Öğrenmenin Temelleri
Hem veri madenciliği hem de makine öğrenmesi aynı temelde fakat farklı şekillerde gerçekleştirilir. Bir veri bilimcisi, veri madenciliğini kullanarak karar verme süreçlerini şekillendirmeye yardımcı olabilecek yeni kalıplar aramak için mevcut bilgilerden yararlanır.
Örneğin, giyim markası Free People, sezon görünümlerini şekillendirmek için milyonlarca müşteri kaydını tarama da veri madenciliğini kullanıyor. Veriler ile; en çok satan ürünleri, en çok iade edilen ürünleri ve daha fazla giysi satmaya ve ürün önerilerini geliştirmeye yardımcı olmak için müşteri geri bildirimleri araştırılıyor. Veri analizinin bu şekilde kullanılması, genel olarak daha iyi bir müşteri deneyimine yol açar. Zebra Medical Vision, her yıl 500.000'den fazla Amerikalı'nın ölümüne yol açan kardiyovasküler koşulları ve olayları tahmin etmek için bir makine öğrenme algoritması geliştirdi. Makine öğrenmesi, gelecekteki olaylara yönelik davranışları uyarlar ve veri madenciliği de tipik olarak makine öğrenmesi için alınacak bir bilgi kaynağı olarak kullanılır. Veri bilimcileri belirli veri ve parametreleri otomatik olarak arayacak veri madenciliğini kurabilseler de, insan etkileşimi olmadan bilgiyi kendi başlarına öğrenemez ve uygulayamazlar. Veri madenciliği mevcut veri parçaları arasındaki ilişkiyi, makine öğrenmesi ile aynı derinlikte göremez.
Desen Tanıma
Veri toplama kısmı işin en zor kısmıdır, diğer kısım ise her veriyi anlamlandırmaktır. Bilimcilerin topladığı ve bulabildiği büyük miktardaki bilgiyi analiz edebilmek ve yorumlayabilmek için doğru yazılım ve araçlara ihtiyaç vardır. Aksi takdirde, veri bilimcileri kendi başlarına bu karmaşık, genellikle ince ve görünüşte rastgele kalıpları aramak için zamanlarını ayıramazlarsa, veriler büyük ölçüde kullanılamaz hale gelecektir. Veri bilimciler, veri bilimine, analize aşina bile olsalar, bu işin zor, zaman bir iş olduğunu bilirler. İşletmeler, satış tahminlerini şekillendirmek veya müşterilerinin gerçekten ne tür ürünler almak istediklerini belirlemek için verileri kullanırlar. Örneğin; Walmart, veri ambarı için 3.000'den fazla mağaza satış noktasından veri toplar. Satıcılar bu bilgileri görebilir ve satın alma modellerini belirlemek, gelecek için envanter tahminlerini ve süreçlerini yönlendirmek için kullanabilir. Veri madenciliği, bazı kalıpları sınıflandırmalarda ve dizi analizi yapmada kullanılabilir. Bununla birlikte makine öğrenmesi, veri madenciliğinin toplanan verilerden otomatik olarak öğrenmek ve bunlara adapte olmak için kullandığı aynı algoritmaları kullanarak bu kavramı bir adım öteye taşımaktadır. Makine öğrenmesi ile, giderek daha yaygın bir sorun haline gelen kötü amaçlı yazılımların sistemlerdeki veya buluttaki verilere nasıl erişildiği konusunda çözüm arayabilir. Makine öğrenmesi ayrıca hangi dosyaların gerçekten zararlı olduğunu tespit etmeye yardımcı olmak için yüksek doğruluk düzeyine sahip kalıplara da bakar. Bütün bunlar, bir insan tarafından sürekli izlemeye gerek kalmadan yapılır. Anormal kalıplar tespit edilip, kötü amaçlı yazılımın yayılmasını önlemek için önlem alınması için bir uyarı oluşturulabilir.
Geliştirilmiş Doğruluk
Hem veri madenciliği hem de makine öğrenmesi toplanan verilerin doğruluğunu artırmaya yardımcı olabilir. Veri madenciliği, verinin nasıl analiz edildiği genellikle verilerin nasıl organize edildiği ve toplandığı ile ilgili çalışır. Veri madenciliği, verileri binlerce kaynaktan çekip çıkarmak ve eleme yapmak için yazılımları kullanır ve araştırmacıların, veri bilim adamlarının, yatırımcıların ve işletmelerin, sonuçlarının artmasına yardımcı olacak kalıpları bulur. Sonuç olarak makine öğreniminin temel dayanaklarından biri veri madenciliğidir.
Veri madenciliği, daha doğru veri elde etmek için kullanılabilir. Daha iyi sonuçlar elde etmek için makine öğrenimini hassaslaştırmaya yardımcı olur. Kişi veriler arasındaki çoklu bağlantıları ve ilişkileri kaçırabilirken, makine öğrenme teknolojisi bu parçaların hepsini doğru bir sonuç çıkarmak için belirleyebilir. Makine öğrenimi, satış ekiplerinin müşterilerini daha iyi anlamalarına ve onlarla bağlantı kurmalarına yardımcı olmak için CRM sistemlerinde ilişki zekasını artırabilir. Makine öğrenimi ile bir şirketin CRM'i, dönüşüm veya müşteri memnuniyeti geri bildirimi sağlayan geçmiş işlemleri analiz edebilir. Ayrıca, hangi ürün ve hizmetlerin daha çok satılacağını tahmin ederek müşterilere nasıl bir pazarlama mesajı ile gidileceğini ön görebilir.
Veri Madenciliğinin Geleceği ve Makine Öğrenmesi
Önümüzdeki yıllarda veri miktarı artacağından dolayı veri bilimi için gelecek parlak gibi gözüküyor... 2020 yılına kadar, birikmiş dijital veri evrenimiz, Forbes’a göre 4.4 zettabayttan 44 zettabayta büyüyecek. Gezegendeki her insan için her saniye 1.7 megabayt yeni bilgi yaratacağız. Daha fazla veri topladığımızda, gelişmiş veri madenciliği ve makine öğrenimi tekniklerine olan talep, sanayiyi ayakta tutmaya devam edecek. Analiz amaçlı olarak büyük miktarlarda veri toplanmasını ve kullanılabilirliğini geliştirmek için veri madenciliği ile makine öğrenmesi arasında daha fazla rekabet olduğunu göreceğiz. Bio IT World'den gelen haberlere göre, veri madenciliğinin geleceği, tıbbi araştırma gibi endüstrilerde gelişmiş analizlerle devam edecek.
Ancak bazı uzmanların veri madenciliği ve makine öğrenimi hakkında farklı fikirleri de var. Bazı uzmanlar farklılıklarına odaklanmak yerine, her ikisi kullanarak: “Verilerden nasıl ne öğrenebiliriz? sorusuna odaklanmamız gerektiğini savunuyor.