データサイエンスの歪度と尖度とは何ですか?

Skewness and Kurtosis in Data Science min

そこにあるすべてのデータサイエンティストについて、データセットが予測または規範的であると言って、あらゆるタイプの分析を実行する前に機能エンジニアリングを行うことが非常に重要です。機能エンジニアリング手法には、データからNAN値を削除したり、不要な列の削除、データのスケーリング、データの分割、マージ、連結などなど、多くのことが含まれます。これらの機能エンジニアリング手法の助けを借りて、モデルの精度が向上し、より良く信頼できる結果を得ることができます。これらすべての機能エンジニアリング手法から、2つの重要なものは歪度と尖度です。これらの詳細を以下に示します。

歪度

歪度とは、データセットが持っている対称性の欠如を意味します。簡単に言えば、正規分布のようなデータセットの分布をプロットしている場合、データセットがその平均からどれだけ歪んでいるか。歪むほど、対称性の欠如が増えます。分布は、平均の周りに値が均一に分布する場合、対称的であるか、歪んでいないと言われています。このような場合、スキューはゼロであり、平均=モード=中央値です。これは、対称分布では、平均、モード、および中央値が互いに一致することを意味します。主に非対称性に基づいた2種類の歪度があり、これらはゆがんで右スキューです。分布が左側にあるように分布が広がっている場合、外れ値がグラフの尾部にある場合、それは正しく歪んだ分布と呼ばれ、これの反対が起こる場合、平均は右にシフトされ、グラフの左に横たわる外れ値が左斜めと呼ばれます。歪度の範囲は、次の式に基づいて、負、正、またはニュートラルのいずれかです。

sk= 3(平均 - 中央値) /標準偏差

ここにsk歪度係数と呼ばれ、それが負の場合、分布は負に歪んでおり、陽性の場合は陽性に偏っています。同じが0の場合、スキューはありません。この係数の範囲は-3〜 +3です。

b1= m32/ µ23

ここで、µ2とµ3は2番目と3番目の中心的なモーメントです。ここでµ2は分散です。

サンプルの推定値は次のように与えられます。

b1= m32/m23、およびM3とM2は次のように与えられます。

m2 = ∑(x-x̅))2/n-1

M3 =∑(x-x̅))3/n-1

対称分布を考慮すると、B1の値は0に等しくなければなりません。M3が正または負かに基づいて、歪度の方向が決定されます。

尖度

グラフ/曲線の凸性またはピークの尺度として定義されます。 3種類の尖度が広く存在し、それらはメソ皮膚の曲線または正常曲線、跳躍曲線と平らな曲線のレプトクルティック曲線です。尖度は、ピアソン係数β2によって測定されます。

β2の式は次のとおりです。

B2 = M4/M22

サンプルの見積もりを取得している場合

B2 = M4/M22

M4の値は次のように与えられます。

m4 = ∑(x-x̅))4/n-1

このB2の値が3に等しい場合、分布は正常であると言われます。3が3以上の場合、それはLeptoKurticと呼ばれ、3未満のPlatykurticと呼ばれます。

結論

これらの機能エンジニアリング手法を使用してデータの分布を確認し、データから外れ値を削除して、適切な分析のために可能な限りきれいにするようにします。

人工知能と機械学習の分野に深い関心を持ち、前向きな方法で世界を変えることができる技術で起こっている開発に関する彼の意見を書くのが大好きな機械エンジニア。