データサイエンスに必要な統計の基礎知識
機械学習や深層学習を含むデータ サイエンス関連の作業を実行するには、これらがどのように機能するのか、および 1 つのアルゴリズムがこのような大規模な操作をどのように実行できるのかについて、深い概念を知る必要があります。これらのアルゴリズムは、何年にもわたる研究と分析を実行して構築され、ユーザーがコードで同じものを使用できるようになります。
データ サイエンティストとして、コーディングに関する適切な技術的知識と、操作を実行するために使用するすべてのアルゴリズムが統計と確率の概念を使用して構築されているため、統計と確率に関する知識を持つことが非常に重要です。さらに、私たちが統計の専門家であれば、データ サイエンスは非常に簡単な作業であると言えます。デシジョン ツリー、ランダム フォレスト、線形回帰などのあらゆる機械学習アルゴリズムは、学校や大学で学んだ何らかの統計式を使用して構築されています。
成功するためにはデータサイエンティストしたがって、これらの統計と確率の概念を学ぶことが必要です。ここでは、統計の分野に進む場合に知っておくべき基本的な統計について説明します。データ サイエンスに興味があり、データ視覚化とデータ前処理関連の活動に非常に興味があります。
- 人口とサンプル:これらは知っておくべき最も基本的な用語です。母集団は含まれるデータの総量として定義されますが、サンプルは総データから特定のデータ ポイントを選択するときの母集団のサブセットとして定義されます。母集団は「N」で示され、サンプルは「n」で示されます。
- 周波数分布: これは、データ分類を扱う際の統計問題の基礎となります。分類について話すとき、それはデータの種類 (測定可能なデータまたは属性) に従って行われます。データの属性タイプについては、類似した特徴に基づいて項目をグループ化し、適切なカテゴリに分類します。一方、測定可能なデータの場合は、クラスに従って分類されます。このクラスに基づくデータの並べ替えと分離により、頻度分布が形成されます。これは、データ内でクラスが発生した回数を提供するのに役立ちます。それは文字「f」で示され、クラスは「x」で示されます。度数分布表を作成するために通常使用するのはユールの公式は 2.5 X n1/4。ここで、n は観測値の合計数であり、クラスを見つけた後、通常、データを配置したいクラス間隔を見つけます。これは次の式で与えられますC= 最大値 – 最小値 / クラスの数。特定のクラスまでの合計頻度を含む累積頻度分布など、他のタイプの頻度分布も利用できます。
- グラフのプロット:これは、データを適切に視覚化し、そこに存在する変動を確認し、そこから必要な推論を生成することが非常に必要であるため、優れたデータ サイエンティストになるために学ぶべきもう 1 つの統計上の必要性です。データ サイエンティストが使用するさまざまな種類のグラフには、棒グラフ、散布図、折れ線グラフ、ヒストグラム、箱ひげ図、円グラフ、サンバースト プロットなどが含まれます。

- 中心的な傾向の測定:これには、データの平均、中央値、最頻値の計算が含まれます。平均値は平均を示し、最頻値は特定のデータ ポイントの最大発生数を示し、中央値はデータの中央値を示します。中心的な傾向を測定するための式は次のとおりです。
平均 => x= ∑fx/nそして、A + [∑fd/n X c]ここで、f= 頻度、A= 推定平均、d= (x-A_/c、x= 中間クラス値、c= クラス間隔、n= 観測値の総数。
モード => l + (fs/fp+ fsX c)、ここで、l= モード クラスの下限、fp= 前のモーダルクラスの周波数値、fs= 後続モーダル クラスの頻度値、c= クラス間隔。
中央値 => (n+1/2)そしてl + [(n/2)-cf/f XC],ここで、l= 中央値クラスの下限、n= 観測値の合計数、cf= 累積頻度、f= 中央値クラスの頻度、C= クラス間隔。
- 分散:これは平均を中心としたデータの広がりの尺度であり、平均偏差、標準偏差、変動係数、分散などのさまざまなタイプがあります。

- 歪度: これは、平均値付近のデータの分布を確認するための尺度です。つまり、プロットされた度数分布に基づいてデータがどの程度対称的であるかを示します。対称分布は平均値=最頻値=中央値となるため、偏りはありません。
尖度、ガウス分布、標準正規分布、二項分布など、データ サイエンスや機械学習に関連するアクティビティを実行する際に注意すべき統計事項は他にもたくさんあります。より深く理解するには、統計の教科書も読むとよいでしょう。オンライン講義として受講し、概念を明確にします。これは、優れたデータ サイエンティストになるのに役立ちます。
結論
データ サイエンスと分析の分野に飛び込む前に、基本をしっかりと理解し、実際のケースを自分で解決できることを確認してください。データ サイエンティストとしての旅を始めて、自分の知識を世界に伝えましょう。