データ サイエンスは、さまざまなツールや技術を利用したデータの処理と分析を中心に展開します。今日のデータ主導の世界では、それぞれの処理と解釈が必要なデータの種類に遭遇します。適切なデータ分析と統計的解釈のためには、さまざまな種類のデータを理解することが重要です。データの種類によって、使用すべき適切な統計手法と操作が決まります。重要な結論を導き出すには、データの種類に応じて異なる分析と解釈の方法が必要です。この記事では、データの概念とその重要性について、実際の例を示して説明し、データを扱う方法について説明します。
測定のレベル
データセットを分析する前に、データセットに含まれるデータの種類を特定することが重要です。幸いなことに、すべてのデータは、名目データ、順序データ、間隔データ、または比率データの 4 つのカテゴリのいずれかにグループ化できます。これらはデータ型と呼ばれることが多いですが、実際には異なるレベルの測定です。測定レベルは変数が定量化された精度を反映し、データから洞察を抽出するために使用できる方法を決定します。
データの 4 つのカテゴリは区別するのが必ずしも簡単ではなく、階層に属しており、各レベルは前のレベルに基づいて構築されています。

データには 4 つのタイプがあります。1 つは名目データと順序データにさらに分類できるカテゴリデータ、もう 1 つは区間と比率にさらに分類できる数値データです。名目スケールと順序スケールは比較的不正確であるため、分析は容易ですが、得られる洞察の精度は低くなります。一方、間隔スケールと比率スケールはより複雑で分析が困難ですが、より豊富な洞察を提供する可能性があります。
- 公称データ – 名目データは、性別、髪の色、動物の種類などの値にラベルを付けたり名前を付けたりすることによってデータを分類する基本的なデータ タイプです。階層はありません。
- 順序データ – 順序データには、社会的地位などのランクに基づいてデータを「富裕層」、「中所得層」、「貧困層」などのカテゴリーに分類することが含まれます。ただし、これらのカテゴリ間に設定された間隔はありません。
- インターバルデータ – 間隔データは、測定された間隔を含むデータを整理および比較する方法です。摂氏や華氏などの温度スケールは、間隔データの良い例です。ただし、間隔データには真のゼロはありません。つまり、ゼロの測定値でも定量化可能な尺度を表すことができます (摂氏 0 度など、スケール上のもう 1 つの点であり、実際には温度が存在しないことを意味するわけではありません)。 。
- 比率データ – 最も複雑なレベルの測定は比率データです。間隔データと同様に、測定された間隔を利用してデータを分類および整理します。ただし、間隔データとは異なり、比率データには本物のゼロが含まれます。変数がゼロの場合、その変数は存在しません。比率データの主な例は身長の測定ですが、これを負にすることはできません。
公称データとは何ですか?
カテゴリデータは名目データとも呼ばれ、研究、統計、データ分析などのさまざまな分野で利用される重要な種類の情報です。データの分類と整理に役立つカテゴリーまたはラベルで構成されます。カテゴリ データの本質的な特徴は、カテゴリ間に固有の順序やランキングが存在しないことです。代わりに、これらのカテゴリは別個であり、相互に排他的です。

たとえば、名目データは、自然な順序やランキングを使用せずに、情報を個別のラベルやカテゴリに分類するために使用されます。これらのラベルまたはカテゴリは名前または用語を使用して表され、それらの間に自然な順序やランキングはありません。名目データは情報の定性的な分類と整理に役立ち、研究者や分析者が数値的な関係を暗示することなく、特定の属性や特性に基づいてデータ ポイントをグループ化できるようになります。
- 青や緑などの目の色のカテゴリは名目データを表します。各カテゴリは明確であり、順序やランキングはありません。
- iPhone や Samsung などのスマートフォンのブランドは名目データです。ブランド間に階層はありません。
- 車や自転車などの交通手段は名目データです。これらは、固有の順序を持たない個別のカテゴリです。
名目データの特徴
- 名目データとして分類されるデータは、完全に分離され、互いに区別されるカテゴリーで構成されます。
- 名目上のカテゴリに分類されるデータは、数値や定量的な値ではなく、説明的なラベルによって区別されます。
- どのカテゴリも他のカテゴリより優れているか劣っているため、名目データを階層的にランク付けしたり順序付けしたりすることはできません。
例
以下に、名目データを使用して情報を個別の非順序カテゴリに分類および分類する方法の例をいくつか示します。
1. 車の色: 車の色は名目上のデータであり、明確なカテゴリがありますが、固有の順序やランキングはありません。各車は 1 つの色のカテゴリに分類されますが、色間の論理的または数値的な関連性はありません。
2. 果物の種類: バスケット内の果物のカテゴリーは名目上のものです。それぞれの果物は、階層や順序のない特定のカテゴリに属します。すべてのカテゴリは個別であり、個別です。
3. 映画のジャンル: アクションやコメディなどのカテゴリー内でのランキングはないため、映画のジャンルは名目上のデータです。各ジャンルは独自ですが、このデータだけでは、一方が他方よりも優れているかどうかを判断することはできません。
順序データとは何ですか?
順序データは、変数を説明的なカテゴリに分類する定性データの形式です。採用するカテゴリが上位から下位など、ある種の階層的なスケールでランク付けされていることが特徴です。順序データは、名目データに次いで 2 番目に複雑なタイプの測定です。固有の順序を持たない名目データよりも複雑ではありますが、それでも比較的単純です。

たとえば、順序データは、意味のある階層または順序で項目を分類するために使用されるデータのタイプです。これらのカテゴリは、たとえそれらの間隔が等しくない場合でも、学生のさまざまな業績、地位、パフォーマンスを比較してランク付けするのに役立ちます。順序データは、順序付けられた選択や好みを理解し、相対的な違いを評価するのに役立ちます。
- 学校の成績: A、B、C などの成績は、成績によってランク付けされた順序データですが、それらの間隔は異なります。
- 教育レベル: 高校、学士、修士などのレベルは教育によって順序付けされた順序データですが、レベル間のギャップは異なります。
- 年功序列: エントリー、ミッド、シニアなどの職務レベルは階層を示す順序データですが、そのギャップは職種や業界によって異なります。
順序データの特徴
- 順序データは非数値データおよびカテゴリ データのカテゴリに分類されますが、数値をラベルとして使用することもできます。
- 順序データは常に階層内でランク付けされます (そのため、「順序」という名前が付けられています)。
- 順序データはランク付けできますが、その値は均等に分布していません。
- 順序データを使用して、度数分布、最頻値、中央値、変数の範囲を計算できます。
例
以下に、フィールドとドメインで順序データがどのように使用されるかを示すいくつかの例を示します。
1. 教育レベル: 順序データは、学校、学士号、修士号、博士号などの教育レベルを表すために一般的に使用されます。これらのレベルには順序があります。
2. 顧客満足度評価: データのもう 1 つの用途は、顧客満足度調査です。これらの調査では、回答者に自分の経験を悪いものから優れたものまでのスケールで評価するよう求めることがよくあります。
3. エコノミークラス: クラス中位クラス、上位クラスなどのクラスを順位に基づいて順序データとして分類できます。
これらの例は、フィールドやドメイン全体で順序データがどのように利用されるかを示しています。
名目データと通常データ
| 特徴 | 公称データ | 順序データ |
|---|---|---|
| カテゴリの性質 | 個別かつ離散的 | 離散的かつ個別的 |
| 順位・ランキング | 固有の秩序はない | 明確な順序やランキングがある |
| 数値 | 意味のある数値はありません | 意味のある数値はありません |
| 分析手法 | 度数カウント、パーセンテージ、棒グラフ | ランキング、中央値、ノンパラメトリック検定、順序付き棒グラフ、順序回帰 |
| 例 | 動物の色、性別、種類 zip用のLinuxコマンド | 学校の成績、学歴、年功序列 |
| 解釈 | カテゴリに基づいた分類とグループ化に使用されます | 順序付けされた好み、階層、またはランキングを評価するために使用されます |