データ・プロファイリングとは何ですか定義、テクニック、メリット

データ・プロファイリングとは何ですか March 25, 2021

Hanh Truong

データ・プロファイリングの概要

価値のある実用的な洞察をデータから効果的に抽出するには、これらの指標を事前にプロファイリングする必要があります。データ・プロファイリングを実施することにより、組織は情報の品質を効果的に管理できます。

これは、より多くの企業が大量に発生しているにつれ、ますます重要になってきていますデータ毎日。現在、平均的な企業では162.9テラバイトのデータを管理し、平均的な企業では347.56テラバイトのデータを管理しています。

しかし、ハーバード・ビジネス・レビューによると、品質基準を満たしているデータのうちわずか3％です。さらに、平均して、新しいデータの 47% に重大なエラーが少なくとも 1 つあります。情報の管理が誤っていると、企業は収益性の高い機会を逃し、貴重な時間とお金を無駄にすることがあります。組織では、明確に定義されたデータ・プロファイリング・システムを構築することで、これを防ぐことができます。

データ・プロファイリングとは何ですか

データ・プロファイリングは、データセットの構造と情報を理解するために、データセットをレビューおよび分析する行為です。このプロセスにより、組織は異なるデータベースとトレンド間の相互関係を特定できます。

また、指標がビジネスルールおよび標準的な統計測定値と一致することを保証するのに役立ちます。したがって、データ・プロファイリングでは、生成されたすべての情報に一貫性があり、ユーザーがアクセスできるようになります。以下は、プロファイリングに伴う一般的なプロセスです。

記述統計の収集

異なるデータ構造、タイプ、パターンの特定

キーワードの採用、データセットの分類、説明の作成

データ品質試験の実施

メタデータを決定する。メタデータは、別のデータセットについての説明または情報を提供するデータ

データベース内の分布、機能依存関係、埋め込み値の依存関係、および外部キー候補を特定する

データ・プロファイリングのタイプ

組織が一般的に活用するデータ・プロファイリング・ツールには、主に3つのタイプがあります。これらのプロセスを効果的に実装することで、データ品質を向上させ、ユーザーは情報ソースをより詳細に把握できるようになります。データをプロファイルする 3 つの主要な方法を次に示します。

1.構造検出

構造の発見はデータの検証を使用して、正しくフォーマットされ、他のデータセットと一致していることを確認してください。この手法は構造解析とも呼ばれ、さまざまなテクニックに使用できます。

たとえば、組織では、データセット内のシーケンスを検索するプロセスであるパターンマッチングに構造探索を使用できます。会社は、アドレスのデータベースを持っている可能性があり、その中の特定のセットを見つけるためにパターンマッチングを使用します。

組織では、構造探索を使用して基本的な統計を評価することもできます。データ内の最小値と最大値、平均、モード、標準偏差を特定できます。

2.コンテンツディスカバリー

コンテンツ検出では、データベース内のすべての要素を詳細に調べて、データ品質を保証します。このプロセスは、ビジネスオーナーがNULLまたは欠陥のある値を強調表示し、迅速に修正することができます。

コンテンツ検出には、データの整合性を確保するための標準化プロセスも伴います。たとえば、顧客の電話番号を持つデータベースは、適切な分析と抽出を行うには、1-123-456-7890 の正しい形式である必要があります。データが非標準形式の場合、同社は消費者と効果的に通信することができません。

3.リレーションシップの検出

リレーションシップ検出は、会社が使用しているデータセットを特定し、異なるソース間のリレーションシップを理解するプロセスです。リレーションシップ検出を実行するには、ブランドはメタデータ分析を実行して、接続と重複するデータを検出する必要があります。

データ・プロファイリングのテクニック

data profiling techniques 1616536025 9365

2019年の調査によると、31% の企業がデータ駆動型であると考えられています。これには、メトリクスと分析を活用し、データプロファイリングなどのデータ管理ツールの使用が必要です。自社のデータを効果的に評価するために、ブランドは以下のプロファイリングを活用していますテクニック。

列プロファイリング

列プロファイリングは、表を評価し、各列のエントリを定量化する方法です。これにより、列内の度数分布とデータの傾向を明らかにできます。

列間のプロファイリング

列間プロファイリングは、主要な分析と依存性分析で構成されています。組織では、プライマリキーのデータ値を評価して、前の分析を実行します。一方、依存関係分析は、データセット内の関係や構造を識別する複雑な方法です。これらの分析手法の両方を使用することで、ビジネスチームは 1 つのテーブル内のデータ属性の依存性を分析できます。

クロステーブルプロファイリング

このプラクティスでは、主要な分析を使用して、迷いデータ、意味論的および統語的な矛盾を特定します。これにより、情報の重複や冗長性が排除され、データマッピングが合理化されます。クロステーブルプロファイリングを実行することにより、組織は異なるテーブルの列間の接続を分析することもできます。

データ・ルールの検証

データ・ルールの検証では、データセットが確立されたルールおよび測定基準に従っていることを確認します。組織はこの手法を使用して、データの品質と使いやすさを向上させます。

データ・プロファイリングの利点

データ品質の管理ミスが業務に悪影響を及ぼす可能性があります。実際、米国のデータ品質の問題は年間3兆ドル以上です。資本が無駄になるだけでなく、組織は評判の再戦略と再構築にも時間を費やす必要があります。収益を保護するために、企業は入ってくる指標をプロファイリングして制御する必要があります。データ・プロファイリングには、その他の利点があります。

データ品質と信頼性の向上

improved data quality and reliability 1616536025 3687

データ・プロファイリングにより、組織は重複しない、NULL値、または異常がないことを保証できます。また、データをフィルタリングし、ブランドが手元に有用で貴重な情報を持っていることを保証します。したがって、マネージャやシニアレベルのエグゼクティブは、データの品質と信頼性に頼り、重要なビジネス上の意思決定を行うことができます。