Büyük Veri Kavramı

Son yıllarda, pandemi ile birlikte dijitalleşmenin hız kazanması, araştırmacılar arasında sıklıkla kullanılan bir kavram olan “büyük veri (big data)” öne çıkmaktadır. Büyük veri kavramını açıklamak için öncelikle “veri” kavramının tanımını yapmak gerekir. Türk Dil Kurumu’na göre, veri bir araştırmada, tartışmada veya akıl yürütmede sonuca ulaşmak için gereken ilk bilgiyi ifade ederken, dijital dünyada ise bilgi, olgu, kavram veya komutların iletişim, yorum ve işlem için elverişli bir biçimde gösterilmesini ifade eder.

Verilerin anlamlı bir şekilde değerlendirilmesi, analiz edilmesi ve beklenen hedeflere ya da kararlara ulaşmak için sınıflandırılması gerekir. Bu veriler dört farklı grupta sınıflandırılabilir ve aşağıda kısaca açıklanmıştır;

  • Veri parçası (data spot), analizlerde dikkate alınan erişilebilir verinin bir alt kümesi olarak değerlendirilir ve gruplandırılır.
  • Erişilebilir veri (light data), her an kullanıma hazır olan ve erişilebilir olan bir veri grubudur.
  • Gri veri (gray data), erişemediğimiz ama nitelikli varsayımlar yapabileceğimizi ve de analiz ettiğimiz sistemin bir parçası olarak bildiğimiz veri gruplarıdır.
  • Karanlık veri (dark data) ise, nitel veya nicel olup olmadığı anlaşılamayan ayrıca bilinmeyen veya gruplandırılamayan da veri grubudur. Bu veriler kısaca bilmediğimizin veri gruplarıdır veya bilemediğimizin farkında bile olamadığımız veri gruplarıdır diyebiliriz.

Büyük Veri Nedir?

Büyük veri, dijital ortamlardaki çalışmalardan, araştırmalardan, gözlemlerden, arama motorlarından, forumlardan, sosyal medya hesaplarından ve diğer birçok kurumsal kaynaktan elde edilen verilerin anlamlı ve işlenebilir hale getirilmiş biçimine denir. Tanım olarak büyük veri; “Farklı ortamlardan hızlı bir şekilde farklı formatlara sahip büyük hacimdeki veriyi üretmek” olarak adlandırılabilir. “Yani büyük veri; verinin analiz edilip sınıflandırılmış, anlamlı olarak ve işlenebilir bir hale dönüştürülmüş daha büyük daha hacimli halidir.”

Yakın zamana kadar veriler, elektronik tablolar veya veri tabanları ile sınırlıydı ve hepsi çok düzenliydi. Ancak pandeminin de hız kattığı dijital çağın muazzam bir şekilde ilerleyişiyle birlikte artık veri denen kavram çok karmaşık bir yapıyı dönüşmesinin yanında farklı formatlarda (fotoğraflara, videolardan ses kayıtlarına, yazılı metin ve sensör verileri) ve büyük hacimlerde (tera byte, peta byte, ekza byte, zeta byte) oluşmasından kaynaklı olarak da analiz ve işlenmesinde ihtiyaç duyulan ekonomik yatırımlardan ötürü uzun süre sadece depolama yoluna gidilmiştir. Fakat teknolojiyi yakından takip eden işletmeler tüm bu karmaşıklığın çözülmesi için kendi yapıları altında büyük veriye yatırım yapmak durumunda kalmışlardır.

Büyük veriye sahip kuruluşlar için bu kaynak eşsiz fırsatlar sunarken beraberinde de bu büyük hacmi yönetebilmek için çeşitli sorunları da çözmeye itmektedir. Bu sorunların başında büyük verinin saklanması, işlenmesi ve anlamlı bilgilere erişim için gerekli araçlara sahip olunması gelmektedir. Klasik işleme araçlarının yetersiz kalmasının yanında donanım kaynaklarının da geliştirilmesi ihtiyacı oluşmakta, dolayısıyla bu alanda uzman personel istihdamının yanında yeni bir yatırım maliyeti de gerektirmektedir. Bu gerekçelerden ötürü kuruluşlar verinin bir kısmı üzerinde çeşitli örneklemler alarak ve klasik makine öğrenmesi yöntemleri ile analiz etme yoluna gitmektedir. Fakat burada tüm örneklem uzayını temsil edecek gerçek değerleri bulamamaktadır. Bu problemin çözümü için gelişmiş analiz uygulamalarına büyük kuruluşlara yatırım yaparak gerçek veri analizini tümüyle daha hızlı, daha doğru ve daha kapsayıcı olarak yapabilmektedir.

Aşağıdaki şekilde görüldüğü üzere farklı ortamlardan gelen çok çeşitli bilgilerin toplandığı büyük veri ambarının analizi, kuruluşların doğru kararlar almalarına ve stratejiler geliştirmelerine önemli katkılar sağlar. Her alanda kendine yer bulan büyük verinin kullanım alanlarını sınırlamak da çok mümkün gözükmüyor.

Büyük verinin yoğun bir şekilde elde edildiği alanlar

Kamu ve özel sektörde yer alan kurum ve kuruluşların elektronik ortamlarda kayıt altına aldığı verileri:

  • Elektronik ortamdaki davranışları (tıklama alışkanlıkları vb. yapılan tüm işlemler),
  • Dijital ortamlarda gönderilen elektronik postalar,
  • Networkteki veri trafiği,
  • Haberleşme içerikleri (e-postalar, metinler, belgeler, videolar, sesler, resimler),
  • Sistem günlükleri,
  • Arama sorguları, sosyal ağ etkileşimleri,
  • Sağlık kayıtları,
  • Bilimsel araştırma verileri,
  • Devlet ve özel sektöre ait kayıtları (abone ve vatandaşlık bilgileri, üretim ve pazarlama bilgileri vb.)
  • Akıllı şebekeler ile beslenen büyük veriyi

her boyutuyla analiz etmek ve buradan anlamlı ve katma değerli örüntüleri çıkarmak büyük önem arz etmektedir.

Yukarıda bahsi geçen geri ortamlarından elde edilen veriler 3 farklı yapıda elde edilmektedir:

Veri Türleri

Büyük Veri: Veri Türleri

  1. Yapısal veri:

    Yapısal veri, analiz işlemlerinde modellenmesi, girdi olarak alınması, saklanması, sorgulanması, işlenmesi ve görselleştirilmesi kolay olan tüm veri türlerini ifade etmektedir. Genel olarak, belirli tür ve belirli boyutlarda önceden tanımlı alanlarda sunulmakla birlikte ilişkisel veri tabanlarında veya tablolarda yönetilebilmektedir. Bu veri türünün katı bir yapıya sahip olması nedeniyle, süreçlerin yüksek performanslı yetenekler veya paralel teknikler gerektirmemesinden dolayı, diğer veri türlerine kıyasla daha kolay bir şekilde faydalı bilgiler elde edilir.

  2. Yarı yapısal veri:

    Yarı yapısal veya kendi kendini tanımlayan (self-describing) veri, yapısal bir veri türünü yansıtmakla birlikte, sadece katı bir yapıya sahip değildir. Bu tür veriler, yapısallığı tanımlayan modellerin yanı sıra, verideki farklı alanların hiyerarşik bir gösterimini tanımlamak adına kullanılan etiketler ve işaretler gibi çeşitli meta modelleri de içermektedir. En çok bilinen örnekler arasında, XML (Extensible Markup Language) ve JSON (JavaScript Object Notation) programlama dilleri yer alır.

  3. Yapısal olmayan veri:

    Yapısal olmayan veri, tanımlı bir format dışında sunulan ve depolanan kayıt türleridir. Bu tür veriler genellikle, serbest formatlardaki metinler (örn. kitaplar, makaleler, belgeler, e-postalar) ve medya dosyaları (örn. resim, ses, video) şeklinde olmaktadır. Bu tür verilerin katı bir şekilde sunulmasının zorluğu, veri işleme süreçlerinde NoSQL (Not only SQL) gibi yeni mekanizmaların ortaya çıkmasına neden olmuştur.

Büyük Veri Bileşenleri

Büyük veri platformunun oluşumunda beş ana bileşen vardır. Bunlar; aşağıdaki şekilde verildiği üzere variety, velocity, volume, verification ve value ‘dir. Genel olarak 5v diye açıklandığı için İngilizce karşılıklarına yer verilmiştir.

Büyük veri bileşenleri
Büyük veri bileşenleri

Variety (Çeşitlilik):

Üretilen verilerin büyük bir bölümü (%80) yapısal olmamaktadır ve her geçen gün yeni üretilen teknolojiler farklı formatlarda veri üretmektedir. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen çeşitli veri türleri ile uğraşmak gerekmektedir. Ayrıca, bu verilerin farklı dillerde ve Non-Unicode olabilecek olması nedeniyle bütünleştirilmeleri ve birbirlerine dönüştürülmeleri de gereklidir.

Velocity (Hız):

Büyük veri hızla üretilmekte ve gün geçtikçe bu hız artmaktadır. Bu hızlı veri üretiminin sonucu olarak, o veriye ihtiyaç duyan işlem sayısı ve çeşitliliği de aynı hızda artmaktadır.

Volume (Veri Büyüklüğü):

International Data Corporation- IDC istatistiklerine göre 2020’de ulaşılacak veri miktarı, 2009’un 44 katı olacak. Kurumların veri arşivleme, işleme, bütünleştirme, saklama vb. teknolojilerinin bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekmektedir. 2010’lu yıllarda dünyadaki toplam bilişim harcamaları yılda %5 artarken üretilen veri miktarı sadece %40 artmaktadır.

Verification (Doğrulama):

Büyük verideki bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması bir diğer bileşendir. Akış sırasında, verinin doğru akması ve istenilen güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekmektedir.

Value (Değer):

En önemli bileşen ise değer yaratmasıdır. Belirtilen eforlarla tariflenen büyük verinin, veri üretim ve işleme katmanlarından sonra kurum için bir artı değer yaratması gerekmektedir. Karar veriş süreçlerinize anlık olarak etki edebilmesi, doğru kararın verilebilmesi için kolay erişilebilir olması gerekmektedir. Örneğin sağlık konusunda stratejik kararlar alması gereken devlet kurumu anlık olarak bölge, il, ilçe gibi detaylarda hastalık, ilaç, doktor dağılımlarını görebilmelidir. Hava Kuvvetleri, bütün envanterindeki taşıtlarının anlık yerlerini, anlık durumlarını görebilmeli ve bunlar için geriye dönük bakım tarihlerini kolayca izleyebilmelidir.

Büyük veri için; Büyük Veri Uygulama Örnekleri ve Büyük Veride Kaygılar yazılarıma da bakabilirsiniz!

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir