Scikit-Learn、ランダムフォレストで機能の重要性を生成します

ランダムフォレストアルゴリズムが多くの業界に適用されており、より良いビジネス上の決定を下すことができます。一部のユースケースには、クロスセルの目的での高い信用リスク分析と製品の推奨事項が含まれます。

この作品では、古典的な赤ワイン品質の検証装置データセットを使用して、機能の重要性を生成するいくつかの方法を簡単に説明します。この章の終わりまでに、プロジェクトに適用されたランダムフォレストを使用して、さまざまな方法で結果を比較するための基本的な概念を持つことができます。

目次：機械学習におけるscikit学習とランダムフォレストを使用して、オブジェクト機能の重要性を生成

よくある質問

赤ワインデータセットとデータトレーニングの分割

機械学習モデルの場合、適切なデータセットを取得するか、データが重要です。 Kaggleは、適切なデータセットを検索するための最も人気のあるプラットフォームの1つです。これが赤ワイン品質プロジェクトのリンクです。

https://www.kaggle.com/datasets/uciml/red-wine-cortez-et-al-2009

最初のことは、pandasとsklearn train_test_splitを使用してデータを処理することが最初のステップです。

  url   =  "" winequality-red.csv ""

  wine_data   =   pd   （  url  、  sep   =   "" ; "" ）

  x   =   wine_data   （  'quality'  、  axis   =   1  ）

  y   =   wine_data   [  'quality'  ]

  x_train  、  x_test  、  y_train  、  y_test   =   train_test_split  （  x  、  y  、  test_size   =   0.5  、  random_state   =   50  ）

scikit-learnでの機能の重要性

scikit-learnは、ランダムフォレストモデルに組み込みの機能の重要性方法を提供します。ドキュメントによると、この方法はノード不純物の減少に基づいています。

blog detail

ランダムフォレストでは、質問はモデルの機能に似ています。いくつかの質問は、他のものよりも多くの可能性を排除するのに役立ちます。仮定は、より多くの可能性を迅速に排除するのに役立つ機能が、正解に近づくのに役立つため、より重要であるということです。 Scikit-Learnでこれらの機能の重要性を取得するのは非常に簡単です：

  rf   =   randomForestRegressor  （  n_estimators   =   100  、  random_state   =   50  ）

  rf  。  fit  （  x_train  、  y_train  ）

  inbuilt_importances   =   pd   （  rf  。  feature_importances _  、  index   =   x_train  。列）

  inbuilt_importances  。  sort_values  （  ascending   =   true  、  inplace   =   true  ）

inbuilt_importances 。 plot 。 barh （ color = 'black' ）

ランダムな機能を備えた組み込みscikit-learnメソッド

この方法を進める最も簡単な方法は、データセットにランダムな機能を追加し、結果がランダムなしで1つ以上のものよりも逸脱する可能性があるかどうかを確認することです。

実際の機能がランダム機能よりも重要である場合、その重要性が偶然によるものであることを示す可能性があります。

  def   randommethod  （）：

  x_train_random   =   x_train  。コピー（）

  x_train_random   [ "" random "" ] =   np   （  42  ）。  randn  （  x_train  。shape [  0  ]）

  rf_random   =   randomforestregressor  （  n_estimators   =   100  、  random_state   =   42  ）

  rf_random   x_train_random  、  y_train  ）

  importances_random   =   pd  。  series  （  rf_random  index   =   x_train_random  。列）

  importances_random   ascending   =   true  、  inplace   =   true  ）

  importances_random  。  plot  。  barh  （  color   =   'blue'   ）

  plt   "" compettion "" ）

  plt   "" feature "" ）

  plt   ""機能の重要性-scikitはランダムで組み込みを学習します

  plt  。

  return

順列機能の重要性

順列機能の重要性は、機能の値がランダムにシャッフルされたときにモデルのパフォーマンスの変化を測定することにより、ランダムフォレストモデルの各機能の重要性を推定するもう1つの手法です。

この方法の利点の1つは、ランダムフォレストだけでなく、モデル間の結果をより匹敵するモデルで使用できることです。

snapでランダムな森林機能の重要性

shapは、ゲーム理論に基づいて機械学習モデルの出力を解釈する方法です。

順列の重要性と同様に、任意のモデルに適用できる機能の重要性の統一された尺度を提供します。

それの主な欠点は、特に大規模なデータセットまたは複雑なモデルの場合、計算的に高価になる可能性があることです。

ランダムフォレストパス機能の重要性

blog detail

各機能がランダムフォレストの予測にどのように貢献するかを理解する別の方法は、各インスタンスにかかる決定ツリーパスを見ることです。

葉のノードでの予測値と、それに先行するノードの予測値の差を計算して、各機能の推定寄与を取得します。

フルPython scri of feation of feation compationer

第76章に興味がある場合-Scikit Learnとランダムフォレストを使用してオブジェクト機能の重要性を生成します。メッセージを追加して、ニュースレターを購読してください ‘第75章 +概念API’ 。スクリプトをすぐにメールボックスに送信します。

第76章を読むことを楽しんでください – Scikit Learnとランダムフォレストを使用して、オブジェクト機能の重要性を生成します。もしそうなら、以下にリストされていることの1つを行うことで私たちをサポートしてください。”

PayPal (paypal.me/Easy2digital)を通じて弊社チャンネルをサポートおよび寄付を行う
Easy2Digital YouTubeチャンネルの登録と通知ベルをオンにする。
Easy2Digital Facebookページをフォローしていいね！を押す
ハッシュタグ#easy2digitalを使用して、ソーシャルネットワーク上で記事を共有する
Easy2Digitalの最新記事、動画、割引コードを受け取るために、週刊ニュースレターに登録する
www.patreon.com/louisludigitalを通じて、独占的な特典をお楽しみいただくための月額会員に登録する

目次：機械学習におけるscikit学習とランダムフォレストを使用して、オブジェクト機能の重要性を生成

赤ワインデータセットとデータトレーニングの分割

scikit-learnでの機能の重要性

ランダムな機能を備えた組み込みscikit-learnメソッド

順列機能の重要性

snapでランダムな森林機能の重要性

ランダムフォレストパス機能の重要性

フルPython scri of feation of feation compationer

Share This Post

よくある質問

コメント＆レビュー

ニュースレターにご参加

Cookie とデータのプライバシー