Menghasilkan fitur penting menggunakan scikit learn, acak hutan
Algoritma Hutan Acak telah diterapkan di sejumlah industri, memungkinkan mereka untuk membuat keputusan bisnis yang lebih baik. Beberapa kasus penggunaan termasuk analisis risiko kredit tinggi dan rekomendasi produk untuk tujuan cross-sell.

Algoritme hutan acak telah diterapkan di sejumlah industri, memungkinkan mereka mengambil keputusan bisnis yang lebih baik. Beberapa kasus penggunaan mencakup analisis risiko kredit tinggi dan rekomendasi produk untuk tujuan penjualan silang.
Pada bagian ini, saya akan memandu Anda secara singkat melalui beberapa metode untuk menghasilkan fitur penting dengan menggunakan kumpulan data validator kualitas anggur merah klasik. Di akhir bab ini, Anda akan memiliki konsep dasar untuk menerapkan hutan acak pada proyek Anda dan membandingkan hasilnya dengan berbagai metode.
Daftar Isi: Menghasilkan Pentingnya Fitur Objek Menggunakan Scikit learn dan Random Forest dalam Machine Learning
- Kumpulan data anggur merah dan pemisahan pelatihan data
- Pentingnya Fitur Bawaan dengan Scikit-learn
- Metode Scikit-learn bawaan dengan Fitur Acak
- Pentingnya Fitur Permutasi
- Pentingnya Fitur Random Forest dengan SNAP
- Pentingnya Fitur Jalur Hutan Acak
- Skrip Python Lengkap dari Generator Pentingnya Fitur
- Rekomendasi Kursus Kursus Ilmu Data & Pembelajaran Mesin
- Pertanyaan yang Sering Diajukan
Kumpulan data anggur merah dan pemisahan pelatihan data
Untuk model pembelajaran mesin apa pun, mendapatkan kumpulan data yang tepat atau memproses data terlebih dahulu sangatlah penting. Kaggle adalah salah satu platform paling populer bagi Anda untuk mencari kumpulan data yang tepat. Berikut ini tautan untuk proyek kualitas anggur merah.
https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009
Hal pertama, pengolahan data menggunakan Pandas dan Sklearn train_test_split adalah langkah pertama.
url = "winequality-red.csv"
wine_data = pd . read_csv ( url , sep = ";" )
x = wine_data . drop ( 'quality' , axis = 1 )
y = wine_data [ 'quality' ]
x_train , x_test , y_train , y_test = train_test_split ( x , y , test_size = 0.5 , random_state = 50 )
Pentingnya Fitur Bawaan dengan Scikit-learn
Scikit-learn menyediakan metode pentingnya fitur bawaan untuk model Random Forest. Menurut dokumentasi, metode ini didasarkan pada penurunan pengotor node.
Di Random Forest, pertanyaannya seperti fitur dalam model. Beberapa pertanyaan membantu Anda menghilangkan lebih banyak kemungkinan dibandingkan yang lain. Asumsinya adalah fitur yang membantu Anda menghilangkan lebih banyak kemungkinan dengan cepat lebih penting karena membantu Anda lebih cepat mendekati jawaban yang benar. Sangat mudah untuk mendapatkan pentingnya fitur ini dengan Scikit-learn:
rf = RandomForestRegressor ( n_estimators = 100 , random_state = 50 )
rf . fit ( x_train , y_train )
inbuilt_importances = pd . Series ( rf . feature_importances_ , index = x_train .columns)
inbuilt_importances . sort_values ( ascending = True , inplace = True )
inbuilt_importances . plot . barh ( color = 'black' )
Metode Scikit-learn bawaan dengan Fitur Acak
Cara paling sederhana untuk memajukan metode ini adalah dengan menambahkan fitur acak ke kumpulan data dan melihat apakah hasilnya mungkin menyimpang lebih dari yang pertama tanpa acak.
Jika suatu fitur nyata memiliki tingkat kepentingan yang lebih rendah daripada fitur acak, hal ini dapat menunjukkan bahwa pentingnya fitur tersebut hanya karena kebetulan saja.
def randomMethod ():
X_train_random = x_train .copy()
X_train_random [ "RANDOM" ] = np . random . RandomState ( 42 ). randn ( x_train .shape[ 0 ])
rf_random = RandomForestRegressor ( n_estimators = 100 , random_state = 42 )
rf_random . fit ( X_train_random , y_train )
importances_random = pd . Series ( rf_random . feature_importances_ , index = X_train_random .columns)
importances_random . sort_values ( ascending = True , inplace = True )
importances_random . plot . barh ( color = 'blue' )
plt . xlabel ( "Importance" )
plt . ylabel ( "Feature" )
plt . title ( "Feature Importance - Scikit Learn Built-in with random" )
plt . show ()
return
Pentingnya Fitur Permutasi
Pentingnya fitur permutasi adalah teknik lain untuk memperkirakan pentingnya setiap fitur dalam model Random Forest dengan mengukur perubahan kinerja model ketika nilai fitur diacak secara acak.
Salah satu kelebihan metode ini adalah dapat digunakan dengan model apa pun, tidak hanya Random Forests, sehingga hasil antar model lebih sebanding.
Pentingnya Fitur Random Forest dengan SNAP
SHAP adalah metode untuk menafsirkan keluaran model pembelajaran mesin berdasarkan teori permainan.
Ini memberikan ukuran terpadu tentang pentingnya fitur yang, seperti pentingnya permutasi, dapat diterapkan pada model apa pun.
Kelemahan utamanya adalah biaya komputasinya mahal, terutama untuk kumpulan data besar atau model kompleks.
Pentingnya Fitur Jalur Hutan Acak

Cara lain untuk memahami bagaimana setiap fitur berkontribusi terhadap prediksi Random Forest adalah dengan melihat jalur pohon keputusan yang diambil setiap instance.
Ini menghitung selisih antara nilai prediksi pada node daun dan nilai prediksi pada node sebelumnya untuk mendapatkan perkiraan kontribusi setiap fitur.
Skrip Python lengkap dari Generator kepentingan fitur
Jika Anda tertarik dengan Bab 76 – Menghasilkan Pentingnya Fitur Objek Menggunakan Scikit learn dan Random Forest, silakan berlangganan buletin kami dengan menambahkan pesan 'Bab 75 + gagasan api' . Kami akan segera mengirimkan skripnya ke kotak surat Anda.
Saya harap Anda menikmati membaca Bab 76 – Menghasilkan Pentingnya Fitur Objek Menggunakan Scikit learn dan Random Forest. Jika ya, dukung kami dengan melakukan salah satu hal yang tercantum di bawah ini, karena itu selalu membantu saluran kami.
- Dukung dan Donasi ke saluran kami melalui PayPal ( paypal.me/Easy2digital )
- Berlangganan saluran saya dan nyalakan lonceng notifikasi saluran Youtube Easy2Digital .
- Ikuti dan sukai halaman saya halaman Facebook Easy2Digital
- Bagikan artikel di jejaring sosial Anda dengan hashtag #easy2digital
- Anda mendaftar ke buletin mingguan kami untuk menerima artikel, video, dan kode diskon terbaru Easy2Digital
- Berlangganan keanggotaan bulanan kami melalui Patreon untuk menikmati manfaat eksklusif ( www.patreon.com/louisludigital )
Rekomendasi Kursus Kursus Ilmu Data & Pembelajaran Mesin
- Dasar Ilmu Data
- Strategi Database SQL untuk Ilmu Data
- Dasar Ilmu Data IBM
- Pembelajaran mesin
- Pembelajaran Mendalam
Pertanyaan yang Sering Diajukan:
Q1: Apa keunggulan produk S?
A: Produk S memiliki keunggulan dalam kualitas dan inovasi teknologi yang terbaru.
Q2: Apa saja fitur unggulan dari produk S?
A: Produk S memiliki fitur unggulan seperti kecepatan tinggi, daya tahan baterai yang lama, dan kamera berkualitas tinggi.
Q3: Apakah produk S dapat digunakan dengan sistem operasi lain?
A: Ya, produk S dapat digunakan dengan berbagai sistem operasi seperti Android dan iOS.
Q4: Bagaimana cara mengatur pengaturan privasi pada produk S?
A: Anda dapat mengatur pengaturan privasi pada produk S melalui menu pengaturan di perangkat.
Q5: Apakah produk S tahan air?
A: Ya, produk S memiliki sertifikasi tahan air sehingga dapat digunakan dalam kondisi basah.
Q6: Berapa lama garansi produk S?
A: Garansi produk S berlaku selama 1 tahun dari tanggal pembelian.
Q7: Apakah produk S memiliki dukungan layanan pelanggan?
A: Ya, produk S memiliki dukungan layanan pelanggan yang siap membantu Anda.
Q8: Apakah produk S dapat digunakan untuk bermain game?
A: Ya, produk S memiliki performa yang baik sehingga dapat digunakan untuk bermain game.
Q9: Bagaimana cara memperbarui sistem operasi pada produk S?
A: Anda dapat memperbarui sistem operasi pada produk S melalui pengaturan perangkat.
Q10: Apakah produk S memiliki fitur pengisian cepat?
A: Ya, produk S dilengkapi dengan fitur pengisian cepat untuk menghemat waktu pengisian baterai.