Lanjutin Belajar Machine Learning dari Dicoding - Belajar Machine Learning untuk Pemula
Sebelum lanjutin, gw mau sedikit cerita aja karena gw udah hampir 2 minggu gak ngejurnal di blog ini wkwkkwk, terakhir gw inget itu pas lagi lebaran, gw ada waktu luang buat belajar jadi gw lanjut belajar dan full dokumentasiin apa yang gw lakuin dan pelajarin. Jadi karena di sini gw punya waktu luang, gw mau menyempatkan untuk belajar machine learning, gak langsung advanced kayak ARIMA dan kawan-kawannya, ngikutin path dari si Dicoding aja.
Menurut gw yang awam ini bakalan seru sih ya, gak tau kejauhan atau nggak walau bawa embel-embel "untuk Pemula", soalnya di sini gak sekedar belajar supervised dan unsupervised learning kayak regression dan clustering, tapi ada support vector machine (SVM), Neural Network, sampai TensorFlow. Jujur gw gak tau itu semua apaan, gw cuma tau sekedar namanya doang tapi gak artinya, jadi gw berkomitmen akan menyelesaikan course ini (gak tau semuanya akan gw dokumentasiin di blog lewat jurnal kek gini atau nggak), intinya gw mau seriusin course Dicoding ini wkwkkw.
Okeh gitu aja sih ceritanya, mari kita lanjut.
Flashback sebentar yang udah pernah gw pelajari jadi gak gw bahas banyak di sini.
- One-Hot Encoding
One Hot Encoding ini dilakukan ditahap persiapan data, di mana data yang awalnya bertipe kategori (string), di ubah menjadi numerik, kayak di situ awalnya ada kolom Gender yang punya nilai kategori yaitu Perempuan dan Laki-laki, di pecah menjadi value nya dia sendiri, dan diberi label 0 untuk Laki-laki dan 1 untuk Perempuan. Kenapa gak sebagai bilangan biner yang kek true dan false? Karena gw pernah liat case nya kalau ada lebih dari 2 kategori, jadi ada angka lain, yaitu value 2 wkwkkwkw.
- Normalization
Gw lupa kenapa mesin itu dianjurkan untuk memahami data yang range nya sama, mungkin biar gak bias, dan lain-lain. Range yang sama maksudnya gimana? Data di atas sebenarnya bisa kita lihat sebagai data pada umumnya, di mana gaji terendah itu di umur paling rendah juga yaitu 23 dan 4.000.000, sedangkan yang tertinggi itu di umur 45 dengan gaji 35.000.000. Di sini kita bacanya bisa gampang, tapi ntah kenapa si mesin ini mungkin gak terbiasa sama bilangan yang terlalu luas, jadi dianjurkan untuk dilakukan normalisasi. Begini bentukan akhirnya.
Dengan adanya normalisasi, mesin dapat dengan mudah menandai nilai-nilai tadi, yang terkecil ditandai dengan nilai 0 dan yang terbesar ditandai dengan nilai 1.
- Standardization
Latihan SKLearn Decision Tree (ipynb code)
Pakai dataset bunga iris, gak ada melakukan EDA, cuma drop kolom id trus split dataset.
define variabel buat train (X) dan test (y)
Pakai library train_test_split dari sklearn.model_selection, karena data si iris udah bersih, jadi udah bisa di split, di sini ukurannya pakai 90% untuk train, dan 10% untuk test, gw gak tau maksudnya random state apaan.
Update draft pada 23 April 2024
Gak dilanjut lagi bjir, belum terlalu fokus untuk belajar machine learning :")
Komentar
Posting Komentar