-->

Mengakses Data di Pandas DataFrames: Melampaui Dasar-Dasarnya

Post a Comment

Pandas DataFrames, pekerja keras manipulasi data dalam Python, dibangun di atas fondasi Series. Karena DataFrame pada dasarnya adalah kumpulan Series, banyak teknik yang telah Anda pelajari untuk bekerja dengan Series juga berlaku untuk DataFrames. Namun, sifat dua dimensi DataFrames memperkenalkan beberapa metode pengindeksan dan pemilihan yang unik.

DataFrames sebagai Kamus:

Anggaplah DataFrame sebagai kamus Python yang kuncinya adalah nama kolom, dan nilainya adalah kolom itu sendiri, yang disimpan sebagai Seri. Analogi ini membantu dalam memahami cara mengakses kolom individual. Untuk nama kolom berbasis string, Anda bahkan dapat menggunakan notasi titik (misalnya, df.column_name) sebagai pintasan praktis untuk mengakses Seri. Namun, berhati-hatilah! Notasi titik tidak akan berfungsi jika nama kolom Anda bentrok dengan atribut atau metode DataFrame (seperti 'bentuk'). Dalam kasus seperti itu, atau secara umum untuk kejelasan dan ketahanan, sebaiknya gunakan operator pengindeksan (misalnya, df['column_name']). Notasi titik umumnya direkomendasikan untuk sesi interaktif seperti yang ada di Jupyter Notebook.

Akses Baris: .locdan .iloc:

Untuk mengakses baris tertentu, Pandas menyediakan dua atribut yang kuat: .locdan .iloc. .locmenggunakan label baris (yang bisa berupa string, angka, atau objek DateTime), sementara .ilocmenggunakan posisi integer baris (dimulai dari 0). Perbedaan ini sangat penting.


# Accessing the row labeled 'Tokyo'
row_tokyo = city_data.loc['Tokyo']

# Accessing the row at position 2 (third row)
row_at_2 = city_data.iloc[2]

Mengiris baris juga mudah dengan .loc:

# Select rows from 'Tokyo' up to and including 'Toronto'
rows_tokyo_to_toronto = city_data.loc['Tokyo':'Toronto']  # Note: .loc is inclusive of the end bound

Pengindeksan negatif, yang sudah dikenal dari daftar Python, juga berfungsi .ilocuntuk DataFrames:

# Access the second to last row
second_to_last_row = nba.iloc[-2]

Pengindeksan Dua Dimensi:

Kekuatan sesungguhnya dari .locdan .ilocbersinar saat mengakses data dalam dua dimensi. Anda dapat memilih baris dan kolom tertentu secara bersamaan. Sintaksnya menyerupai pengindeksan array NumPy multidimensi:

# Get 'revenue' column for cities 'Amsterdam' through 'Tokyo'
revenue_amsterdam_to_tokyo = city_data.loc['Amsterdam':'Tokyo', 'revenue']

# Select specific rows and multiple columns
games_5555_to_5559 = nba.loc[5555:5559, ['fran_id', 'opp_fran', 'pts', 'opp_pts']]

Sintaksis yang elegan ini memungkinkan Anda menentukan data yang Anda butuhkan dengan tepat. Dengan menggabungkan pilihan baris dan kolom, Anda dapat mengekstrak dan memanipulasi subset DataFrame secara efisien.

Melampaui Seleksi Dasar:

Sementara .locPandas .ilocmenyediakan kemampuan pemilihan mendasar, Pandas menawarkan metode yang lebih canggih untuk akses data. Dalam pelajaran mendatang, kita akan mengeksplorasi teknik seperti query, yang akan memungkinkan Anda memilih data berdasarkan kondisi dan perbandingan, membuka kemungkinan untuk analisis data.

Newest Older

Related Posts

Post a Comment

Subscribe Our Newsletter