Diabetes adalah salah satu tantangan kesehatan global yang terus meningkat, dengan deteksi dini pradiabetes menjadi kunci untuk pencegahan. Data yang digunakan diambil dari Diabetes Health Indicators Dataset dan dipersiapkan melalui tahap feature engineering, analisis korelasi, dan penanganan missing value. Selanjutnya, model dibangun menggunakan tiga algoritma utama, yaitu Random Forest, XGBoost, dan Logistic Regression. Penelitian ini menggabungkan analisis korelasi variabel dan metode imbalance learning untuk mengoptimalkan prediksi pradiabetes menggunakan algoritma machine learning. Untuk menangani ketidakseimbangan data, teknik SMOTE diterapkan guna menghasilkan data sintetik pada kelas minoritas. Hasil penelitian menunjukkan model Random Forest memberikan kinerja terbaik dengan akurasi 97,57%, mengungguli XGBoost dan Logistic Regression. Penerapan analisis korelasi variabel dan imbalance learning terbukti efektif dalam meningkatkan kinerja prediksi dengan identifikasi fitur penting. Penelitian ini menunjukkan bahwa pendekatan yang diterapkan dapat membantu deteksi dini pradiabetes secara lebih akurat dan tepat.
Kata kunci: Diabetes, Deteksi Prediabetes, Machine Learning, Random Forest