お知らせ:

当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

データプロファイラーとビューアー

データプロファイリングとは?

データプロファイリングとは、生データをレビューし、その構造、内容、相互関係を理解し、分析的な洞察の機会を特定するプロセスです。

データ前処理の実行、データ可視化の実行、データ品質スコアの改善において重要です。また、使用されているデータに関する全体的なインテリジェンスを提供することで、分析の改善にも役立ちます。

データプロファイリングの活用例:

  • データ前処理: 欠損値、ユニーク値と重複値、一貫性のないデータフォーマットを特定し、分析のためのデータのクリーンアップと準備に役立ちます。
  • データ可視化: データプロファイリングにより、データの実際の分布を理解し、外れ値を特定できるため、より正確で有益なデータ可視化を作成できます。
  • データ品質スコアの改善: データ品質の問題を特定して修正することで、データプロファイリングはさらなる分析のためのデータの信頼性向上に役立ちます。

データプロファイリングには、以下のような多様な活動が含まれます:

  • 数値カラムの最小値、最大値、平均値などの統計情報の収集
  • データ型の収集とデータ内の繰り返しパターンの特定
  • データの冗長性と品質の把握
  • 表形式データのテーブル間分析の実施

QuickMLにおけるデータプロファイリング

QuickMLのデータセットモジュールにアップロードされたデータは、自動的にデータプロファイリングセクションを通過し、データに関する豊富な理解と価値ある洞察を提供します。

  1. レコード数、ユニーク値とパーセンテージ: QuickMLは、データの各カラムにおけるユニーク値と重複値の数、およびそれぞれの合計に対するパーセンテージを検出し、行とカラムの効率的な更新に活用できます。

  2. データ型と可視化: QuickMLデータプロファイラーは、データセット内の各特徴量のデータ型を正確に識別し、データに関する明確な洞察を得るために分布を可視化します。

  3. 欠損値: QuickMLデータプロファイラーは、空白値やnull値などの欠損値の数とパーセンテージを取得し、データサイエンティストが適切な値を設定するのに役立ちます。

  4. 統計情報: QuickMLデータプロファイラーは、数値カラムとカテゴリカラムに対して以下の統計データを生成します:

数値カラム 合計、最小値、最大値、平均値、中央値、標準偏差、分散、低・中・高パーセンタイル
カテゴリカラム ユニーク値、重複値
  1. データセットバージョニングと品質スコア QuickMLは、同じデータの複数バージョンをプロファイリングし、各バージョンの品質スコアを生成できます。データプロファイルは、データセット詳細ページのバージョンオプションを使用していつでも表示できます。

  2. 相関ヒートマップ データプロファイラーは、データセットのすべてのバージョンに対して相関ヒートマップを生成し、特徴量間の相互関係と、それらが互いにおよびターゲット特徴量とどの程度関連しているかを可視化します。

Data Profiler

QuickMLにおけるデータビューアー

データセット詳細ページでは、元のデータセットから250レコードをサンプリングしてデータプレビューが生成され、各特徴量のデータ型を特定するのに役立ちます。 Data Viewer

最終更新日 2026-03-05 11:43:24 +0530 IST