Veri Bilimi, günümüzün en hızlı gelişen ve en önemli teknolojik alanlarından biridir. Veri bilimci mülakatı sırasında, işletmeler genellikle adayların becerilerini değerlendirmek ve yeteneklerini keşfetmek için soru sormaktadır. Bu yazıda veri bilimi mülakat soruları ve olası cevaplar verilmiştir.

Veri Bilimi Mülakat Soruları

Veri bilimi
.

1) Veri Bilimi nedir? Denetimli ve denetimsiz öğrenme arasındaki farkları listeleyin.

Veri Bilimi, ham verilerden gizli kalıpları keşfetme hedefiyle çeşitli araçların, algoritmaların ve makine öğrenimi ilkelerinin bir karışımıdır.

Denetimli ve denetimsiz öğrenme arasındaki farklar şunlardır;

Denetimli Öğrenme Denetimsiz Öğrenme
Giriş verileri etiketlenir. Giriş verileri etiketlenmez.
Bir eğitim veri seti kullanır. Giriş veri setini kullanır.
Tahmin için kullanılır. Analiz için kullanılır.
Sınıflandırma ve regresyon sağlar. Sınıflandırma, yoğunluk tahmini ve boyut azaltma sağlar

2) Seçim yanlılığı nedir?

Seçim yanlılığı, araştırmacının kimin üzerinde çalışılacağına karar verdiğinde ortaya çıkan bir tür hatadır. Genellikle katılımcıların seçiminin rastgele olmadığı araştırmalarla ilişkilendirilir. Bazen seçim etkisi olarak adlandırılır. Örnek toplama yönteminden kaynaklanan istatistiksel analizin bozulmasıdır. Seçim yanlılığı dikkate alınmazsa, çalışmanın bazı sonuçları doğru olmayabilir.
Seçim yanlılığı türleri şunları içerir:

  1.  Örnekleme yanlılığı: Bir popülasyonun rastgele olmayan bir örnekleminden kaynaklanan sistematik bir hatadır ve popülasyonun bazı üyelerinin dahil edilme olasılığının diğerlerinden daha az olmasına neden olur ve bu da taraflı bir örneklemle sonuçlanır.
  2. Zaman aralığı: Bir deneme aşırı bir değerde erken sonlandırılabilir (genellikle etik nedenlerle), ancak tüm değişkenler benzer bir ortalamaya sahip olsa bile, uç değere en büyük varyansa sahip değişken tarafından ulaşılması muhtemeldir.
  3. Veri: Önceden belirtilen veya genel olarak kabul edilen kriterler yerine keyfi gerekçelerle kötü verilerin bir sonuca varılmasını veya reddedilmesini desteklemek için belirli veri alt kümeleri seçildiğinde.
  4. Yıpratma: Yıpratma yanlılığı, yıpratmanın (katılımcı kaybı) neden olduğu, deneme deneklerini, tamamlanmayan testleri göz ardı eden bir tür seçim yanlılığıdır.

3) Sapma-varyans değiş tokuşu (Bias-Variance trade-off) nedir?

  • Sapma: Sapma, makine öğrenimi algoritmasının aşırı basitleştirilmesi nedeniyle modelinizde ortaya çıkan bir hatadır. Yetersiz takılmaya yol açabilir. Modelinizi o sırada eğittiğinizde, model, hedef işlevin daha kolay anlaşılmasını sağlamak için basitleştirilmiş varsayımlar yapar.
    Düşük sapmalı makine öğrenimi algoritmaları : Karar Ağaçları, k-NN ve SVM
    Yüksek sapmalı makine öğrenimi algoritmaları : Lineer Regresyon, Lojistik Regresyon
  • Varyans: Varyans, karmaşık makine öğrenimi algoritması nedeniyle modelinizde ortaya çıkan bir hatadır, modeliniz gürültüyü eğitim veri kümesinden de öğrenir ve test veri kümesinde kötü performans gösterir. Yüksek hassasiyete ve fazla takmaya yol açabilir.

Normalde, modelinizin karmaşıklığını artırdıkça, modeldeki daha düşük sapma nedeniyle hatada bir azalma göreceksiniz. Ancak, bu yalnızca belirli bir noktaya kadar olur. Modelinizi daha karmaşık hale getirmeye devam ettikçe, modelinizi gereğinden fazla uydurursunuz ve dolayısıyla modeliniz yüksek varyanstan muzdarip olmaya başlar.

Sapma-varyans değiş tokuşu : Herhangi bir denetimli makine öğrenimi algoritmasının amacı, iyi bir tahmin performansı elde etmek için düşük sapmaya ve düşük varyansa sahip olmaktır.

  1. k-en yakın komşu algoritması düşük yanlılığa ve yüksek varyansa sahiptir, ancak tahmine katkıda bulunan komşuların sayısını artıran ve dolayısıyla modelin yanlılığını artıran k’nin değeri artırılarak değiş tokuş değiştirilebilir.
  2. Destek vektör makinesi algoritması düşük yanlılığa ve yüksek varyansa sahiptir, ancak eğitim verilerinde izin verilen marjın ihlal sayısını etkileyen C parametresi artırılarak değiş tokuş değiştirilebilir, bu da yanlılığı artırır ancak varyansı azaltır.

Makine öğreniminde sapma ve varyans arasındaki ilişkiden kaçış yoktur. Yanlılığı artırmak varyansı azaltacaktır. Varyansı artırmak yanlılığı azaltacaktır.

4) Karmaşıklık matrisi nedir?

Karmaşıklık matrisi, genellikle bir makine öğrenimi modelinin performansını değerlendirmek için kullanılan bir tablodur. Bir sınıflandırma probleminin tahmin edilen ve gerçek değerlerini, gerçek etiketleri temsil eden satırlar ve tahmin edilen etiketleri temsil eden sütunlar ile bir matris biçiminde özetler.

Karmaşıklık Matrisi

Bir karışıklık matrisinin ana amacı, tahmin edilen etiketleri gerçek etiketlerle karşılaştırarak modelin performansını göstermektir. Kaç tane gözlemin doğru sınıflandırıldığını ve kaçının yanlış sınıflandırıldığını gösterir. Spesifik olarak, bir karışıklık matrisi aşağıdaki ölçümleri görüntüler:

  • Gerçek pozitifler (TP): doğru şekilde pozitif olarak sınıflandırılan gözlemlerin sayısı.
  • Yanlış pozitifler (FP): pozitif olarak sınıflandırılan ancak gerçekte negatif olan gözlemlerin sayısı.
  • Gerçek negatifler (TN): Doğru şekilde negatif olarak sınıflandırılan gözlemlerin sayısı.
  • Yanlış negatifler (FN): Negatif olarak sınıflandırılan ancak gerçekte pozitif olan gözlemlerin sayısı.

Bu ölçümler, doğruluk, kesinlik, hatırlama, F1 puanı ve diğerleri gibi çeşitli değerlendirme ölçümlerini hesaplamak için kullanılabilir. Karışıklık matrisine bakarak, modelin hangi sınıfları iyi tahmin ettiğini ve hangi sınıflarla mücadele ettiğini belirleyebilirsiniz. Bu bilgi, modelde ince ayar yapmak veya gerekirse karar eşiğini ayarlamak için kullanılabilir.

 

Görüşmelerinizin Veri Bilimi kısmında iş verenlerin sorduğu/sorabileceği bazı soruları inceledim. Görüşmelerde karşılaşacağınız Veri Analizi kısmındaki sorular da Veri Analizi Mülakat Soruları başlıklı yazımda. Sizin de görüşmelerinizde karşılaştığınız farklı sorular olursa yorum olarak paylaşabilirsiniz. Bol şans!

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir