Belajar Python Data Sciene Day 6, Mengenal Pandas

Belajar Python Data Sciene Day 6, Pandas

Setelah kemarin kita berkenalan dengan Statistika Deskriptif, sekarang kita berkenalan dengan Pandas. By the way, meskipun aku sering berurusan dengan data. Tapi sebenarnya aku nggak paham tentang ilmu Statistik. Apalagi Statistika Deskriptif. 

Sebagai programmer yang memegang semua data dan aplikasi di Rumah Sakit. Aku sering mendapat permintaan data. Terutama data-data rekam medis yang sering meminta data suka-suka. Tapi aku juga nggak menyalahkan mereka. Soalnya mereka minta data ke kami karena mereka dimintai data oleh manajemen atau pihak lain. 

Karena itulah aku berfikir sepertinya aku harus mempelajari Machine Learning. "Huff," ternyata Machine Learning tidak semudah yang kukira.  Begitulah sedikit curcol dariku. 

Sebelumnya aku mengolah data-data dengan Microsoft Excel atau lewat SQL Server. Terus terang mengolah data dengan Visual Basic 6 bukan hal yang menyenangkan. Bukan hanya Visual Basic 6, C#, VB.net dan PHP juga memberikan pengalaman yang sama. Tapi dengan Python, semuanya berubah. 

Sebenarnya bukan Pythonnya yang sakti. Tapi library-librarynya yang sangat powerfull. Salah satunya adalah Pandas.  Dulu aku kira nama Pandas dipilih buat lucu-lucuan, seperti aku yang gendut, imut dan lucu. Tapi ternyata bukan. 

Pandas

Pandas adalah salah satu library pengolah data yang sangat populer dan banyak digunakan dalam mengolah data. Pandas pertama kali dirilis pada tahun 2008 oleh om Wes McKinney ketika beliau bekerja di AQR Capital Management. Perusahaannya nggak ada di Indonesia ya gaes, 

Fitur

Sebagai alat yang powerfull untuk mengolah data. Pandas memiliki fitur-fitur yang powerfull. Berikut ini aku lansir dari web petruknisme yang mengambil dari Learning Pandas, Second Edition oleh Michael Heydt(Introducing pandas), maaf tidak aku translate. Meski aku agak paham artinya. Tapi aku takut kalau nanti artinya jadi beda. Maklum, kalau yang menerangkan sudah bukan sumbernya. Bisa jadi informasinya berkurang atau bertambah. Fitur-fitur dari Pandas adalah sebagai berikut:
  • Fast and efficient Series and DataFrame objects for data manipulation with integrated indexing
  • Intelligent data alignment using indexes and labels
  • Integrated handling of missing data
  • Facilities for converting messy data into orderly data (tidying)
  • Built-in tools for reading and writing data between in-memory data structures and files, databases, and web services
  • The ability to process data stored in many common formats such as CSV, Excel, HDF5, and JSON
  • Flexible reshaping and pivoting of sets of data
  • Smart label-based slicing, fancy indexing, and subsetting of large datasets
  • Columns can be inserted and deleted from data structures for size mutability
  • Aggregating or transforming data with a powerful data grouping facility to perform split-apply-combine on datasets
  • High-performance merging and joining of datasets
  • Hierarchical indexing facilitating working with high-dimensional data in a lower-dimensional data structure
  • Extensive features for time series data, including date range generation and frequency conversion, moving window statistics, moving window linear regressions, date shifting, and lagging
  • Highly optimized for performance, with critical code paths written in Cython or C

Install Pandas

Untuk menginstall Pandas sangat mudah. Biasanya Pandas sudah disertakan di paket instalasi baik melalui installer maupun software bundling pengolah data dengan python seperti Jupyter Notebook atau spyder.

Tapi kalau kamu ingin menginstall sendiri, kamu bisa menginstall melalui package manager python, yaitu pip. Ketikkan perintahnya di command prompt
pip install pandas 


Struktur Data Pandas

Struktur data Pandas ada 3 
1. Series
2. DataFrame

Series

Kalau kalian sudah pernah membaca artikelku yang berjudul Review Jadi Peserta pelatihan Belajar Python data science bersama Sanbercode day 2, Mengenal list, kalian pasti sudah tahu tentang tipe data List di Python. Nah, tipe data Series mirip sekali dengan List. Perbedaannya hanya pada index saja. Lebih mudahnya Series adalah tipe data yang berwujud array satu dimensi. Data dalam Series bisa berupa string, integer dan lain sebagainya. Berikut ini contoh membuat Series dengan Pandas di Python

import pandas as pd

x = pd.Series([1,2,3,4])
print(x)
=============
0    1
1    2
2    3
3    4
dtype: int64

angka 0,1,2,3 adalah index dari Series, sedangkan 1,2,3,4 adalah value/nilai dari index.

DataFrame

DataFrame hampir sama dengan Series. Jika Series adalah tipe data array satu dimensi. DataFrame adalah tipe data multidimensi. Lebih mudahnya DataFrame adalah tampilan data berupa tabel/tabular. Yaitu kumpulan dari Series yang direpresentasikan dengan kolom. Satu list diwakili satu kolom. 

Contoh DataFrame di Python adalah sebagai berikut:

import pandas as pd

df = pd.DataFrame({'panjang': [50, 21], 'lebar': [12, 15]})
print(df)
==========
      panjang  lebar
0 	50 	12
1 	21 	15

# check tipe data
print(type(df))
==========
<class 'pandas.core.frame.DataFrame'>

Perbedaan Series dan DataFrame bisa dilihat digambar berikut:

series dan dataframe


sumber:
https://petruknisme.com/2019/04/15/pengenalan-pandas-dan-series/
https://blog.sanbercode.com/docs/kurikulum-python-data-science/week-2/pandas-foundation/

No comments for "Belajar Python Data Sciene Day 6, Mengenal Pandas"