Hasil Scoring NA #939
-
Dear team algoritma, Saya membuat model scoring (behaviour) dengan menggunakan log.regression. Data yang saya gunakan sengaja mempertahankan ada nilai NA, tujuannya untuk antisipasi apabila ada data baru yang debiturnya baru (belum pernah ada history pembayaran angsuran dan billing) datanya seperti ini: Untuk pemodelan proporsi dibuat 80% data train dan 20% data test. Hasil dari log.regression variable yang terpilih ada sebanyak 44 var dari 108 var. Hasil evaluasi model seperti ini: Masalah yang saya dapatkan, pada saat model di prediksi ke data baru, ada beberapa yang score nya NA. Itu disebabkan karena ada beberapa dari variable yang penting pada data baru nilai nya NA, sedangkan pada saat pemodelan untuk beberapa variable penting tidak terdapat nilai NA. Berikut hasil dari predict ke data baru (bukan data test) yang hasilnya NA. Untuk kondisi seperti ini, treatment apa yang harus saya lakukan ? Saya sudah membuat adjustment pada bins, dengan mendefinikan nilai NA menjadi missing, namun hasilnya tetap menjadi NA. Mohon sarannya, Best regards |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 5 replies
-
Dear Pak @joejnt, Untuk memahami penyebab nilai NA pada kolom |
Beta Was this translation helpful? Give feedback.
Baik pak @joejnt, berdasarkan data hasil screenshot Bapak, sepertinya error tersebut terjadi ketika proses
scorecard_ply()
, dimana seharusnya output yang dihasilkan adalah sebuah tabel dengan jumlah baris outputnya sesuai dengan jumlah baris data tabel yang diinput dan nilainya tidak 0.Kemungkinan besar kesalahannya terdapat pada input yang Bapak berikan, yaitu
new_data
. Apakah format data darinew_data
sudah sesuai dengan data yang diinput kescore_card
nya? (pastikan kolom-kolomnya sama dengan kolom variable discore_card
)