Tablo şeklindeki verilerin işlenmesi ve analiz edilmesi için en popüler araçlardan biri olan Pandas kütüphanesi ile oluşturulan DataFrame, Python programlama dilinde çok önemli bir veri yapılarından biridir. Bu yazıda DataFrame’in ne olduğunu, nasıl oluşturulacağını, temel özelliklerini ve nasıl kullanılacağını detaylı bir şekilde ele alacağız.
DataFrame Nedir?
DataFrame, iki boyutlu bir veri yapısıdır ve her bir sütunun aynı boyutta bir veri dizisi içerdiği bir tablo olarak düşünülebilir. Her sütun, farklı bir veri türünü temsil edebilir (örneğin, bir sütunlar, sayılar, bir sütun ise metin içerebilir).
Pandas kütüphanesi ile oluşturulan DataFrame, R programlama dilindeki veri çerçevelerine benzerdir. DataFrame, bir veya daha fazla dizinin yanı sıra her bir sütunun etiketleri (sütun başlıkları) ile birlikte saklanır. Her bir satır, bir indeks etiketi (satır başlığı) ile tanımlanır.
DataFrame Nasıl Oluşturulur?
DataFrame, birçok farklı veri kaynağından oluşturulabilir. Örneğin, bir CSV dosyası, bir veritabanı, bir Excel çalışma kitabı veya bir JSON dosyası içerebilir. Ancak, en yaygın yöntemlerden biri, bir Python sözlüğünden DataFrame oluşturmaktır. Pandas kütüphanesi, DataFrame oluşturmak için çeşitli yöntemler sağlar. İşte en yaygın olanlardan birkaçı:
1. Python Sözlüklerinden
2. NumPy Dizilerinden
3. CSV Dosyalarından
4. Veritabanlarından
import pandas as pd
import sqlite3conn = sqlite3.connect
DataFrame Özellikleri
DataFrame’in bazı özellikleri şunlardır:
shape
DataFrame’in boyutunu (satır, sütun sayısı) verir.
df.shape # (4, 3)
head ve tail
DataFrame’in ilk veya son n satırını görüntüler.
df.head(2) # İlk iki satırı görüntüler
df.tail(2) # Son iki satırı görüntüler
info
DataFrame hakkında bilgi sağlar. Her bir sütunun adı, veri tipi ve null olmayan değer sayısı gibi ayrıntıları içerir.
df.info()
describe
DataFrame’in sayısal sütunları için temel istatistikleri (örneğin, ortalama, standart sapma, minimum, maksimum vb.) sağlar.
df.describe()
DataFrame ‘i Düzenleme
DataFrame’i düzenlemek için, aşağıdaki yöntemleri kullanabilirsiniz.
Yeni Bir Sütun Eklemek
# Yaşı 10 arttırmak için yeni bir sütun eklemek
df[‘Increased Age’] = df[‘Age’] + 10
print(df)
Bir Sütunu Silmek
# ‘Increased Age’ sütununu silmek
df.drop(‘Increased Age’, axis=1, inplace=True)
print(df)
Bir Satırı Silmek
# İlk satırı silmek
df.drop(0, inplace=True)
print(df)
NaN Değerleri İşlemek
# NaN değerleri olan satırları silmek
df.dropna(inplace=True)
print(df)# NaN değerlerini ortalama ile doldurmak
mean_age = df[‘Age’].mean()
df.fillna(mean_age, inplace=True)
print(df)
Sütun Adlarını Değiştirmek
# Sütun adlarını değiştirmek
df.columns = [‘Ad’, ‘Yaş’, ‘Şehir’]
print(df)
Satırları ve Sütunları Döndürmek
# Satırları ve sütunları döndürmek
transposed_df = df.T
print(transposed_df)
DataFrame ‘i Dosyaya Kaydetmek ve Dosyadan Yüklemek
Pandas’ın to_csv()
yöntemi ile DataFrame’i CSV dosyasına kaydedebilirsiniz.
# DataFrame’i CSV dosyasına kaydetmek
df.to_csv(‘data.csv’, index=False)
CSV dosyasından bir DataFrame oluşturmak için, read_csv()
yöntemini kullanabilirsiniz.
# CSV dosyasından bir DataFrame oluşturmak
new_df = pd.read_csv(‘data.csv’)
print(new_df)
Bu yazıda, Pandas DataFrame’inin temelleri, özellikler, DataFrame’i düzenleme, ve dosyaya kaydetme/yüklemeyi içeren bazı temel yöntemleri hakkında bilgi verdik. Pandas, büyük veri kümeleriyle çalışırken veri işleme, analiz ve manipülasyonu için çok güçlü bir araçtır. Pandas’ın genişletilmiş işlevselliği, sizi verileri daha hızlı ve kolay bir şekilde anlamak ve keşfetmek için hazır hale getirir.