ANALISIS PERBANDINGAN METODE KLASIFIKASI PADA KATA MINING

Loading...
Thumbnail Image
Date
2022
Journal Title
Journal ISSN
Volume Title
Publisher
Program Studi Teknik Informatika Fakultas Teknik Universitas Widyatama
Abstract
Data mining merupakan teknik pengambilan informasi dari data yang besar berupa transaksi bisnis, data ilmiah, gambar, video dan data lainnya untuk mendapatkan informasi baru. Salah satu kegunaan dari data mining adalah klasifikasi. Klasifikasi bertujuan untuk pengelompokan data berdasarkan ikatan antara variable dalam data. Tujuan dari penelitian ini melakukan perbandingan penggunaan metode klasifikasi Naïve Bayes, Extreme Gradient Boosting, dan Backpropagation Neural Network pada beberapa jenis data. Penelitian ini memiliki 4 tahapan yaitu preprocessing, perancangan model, implementasi model, dan analisis hasil klasifikasi. Dalam tahapan preprocessing terbagi menjadi 4 tahap yaitu encoding, penanganan missing value, split data train dengan test, dan scalling. Encoding dilakukan pada atribut data berjenis kategorik. Dalam penanganan missing value terdapat 5 metode terdiri dari pengisian dengan nilai mean, median, modus, penghapusan, dan prediksi dengan regresi linear. Lalu pada tahap split data train dan test dengan bobot 80:20. Kemudian scalling terdapat 4 skenario diantaranya tanpa, standard, robust, dan minmax scalling. Pada perancangan model klasifikasi menggunakan library python seperti sklearn untuk klasifikasi Naïve Bayes dan Extreme Gradient Boost. Kemudian Tensorflow untuk klasifikasi Backpropagation Neural Network. Implementasi model klasifikasi merupakan kombinasi dari penanganan missing value, metode scalling, dan metode klasifikasi yang menghasilkan 72 skenario. Tahapan Analisis dan Kesimpulan merupakan perbandingan hasil skenario dari 5 hasil karakteristik klasifikasi yaitu Precision, Recall, Accuracy, F1-Score, dan Error Rate pada dua jenis dataset berbeda. Kemudian dari hasil pengujian skenario didapatkan Backpropagation Neural Network menjadi metode klasifikasi terbaik pada dataset univariate dan variate. Klasifikasi pada dataset NBA berguna untuk pemain meningkatkan kemampuan agar dapat bermain mencapai 5 tahun, dan tim saat rekrutmen pemain. Kemudian untuk dataset Car Insurance berguna bagi pengemudi menjaga perilaku berkendara dan kondisi kendaraanya. Terakhir untuk perusahaan asuransi mengurangi kerugian.
Description
Keywords
Data mining, Klasifikasi, Naïve Bayes, Extreme Gradient Boosting, Backpropagation Neural Network, Jenis data, Scalling, Missing Value, Python., Data mining, Classification, Naïve Bayes, Extreme Gradient Boosting, Backpropagation Neural Network, Types of data, Scaling, Missing Value, Python
Citation