ビッグ データに関するブログではビッグ データの機能レイヤーについて説明し、前回のブログではトップ 11 のクラウド データ ストレージ ツールをリストしました。ストレージの次のステップは、データ クレンジング プロセスです。
ビッグ データについて話すとき、ビジネス データであろうと個人データであろうと、データが驚くべき速度で増加していることは自明のことです。事実に従えば、世界中では毎日 2.5 京バイトのデータが作成されています。このデータには、洞察を得るためにデータをマイニングする前に削除する必要がある、反復的で誤ったレコードも含まれています。不正確なデータは、誤った仮定と分析につながり、最終的にはプロジェクトの失敗につながります。
データ クレンジングは、特定のデータベースから不正確なレコードを修正し、(必要に応じて) 削除するプロセスの名前です。データ クレンジングの目的は、いわゆるダーティ データを検出して変更または削除し、特定のデータ セットが正確でシステム内の他のセットと一貫性があることを確認することです。
データにはさまざまなものがあります。掃除道具。優れたデータ クリーニング ツールは、データベースから重複データ、不正なエントリ、間違った情報を取り除くのに役立ちます。これらのツールは、使用される環境に応じて次のカテゴリに分類できます。
このブログでは、優れたオフライン データ クリーニング ツールについて説明します。
1. Drake
Drake は、データとその依存関係に基づいてコマンドの実行を整理する、使いやすく拡張可能なテキストベースのデータ ワークフロー ツールです。データ処理ステップは、その入力と出力とともに定義されます。依存関係を自動的に解決し、ワークフローを制御するための豊富なオプション セットを提供します。複数の入出力をサポートし、HDFS サポートが組み込まれています。
2. OpenRefine
OpenRefine (以前は Google Refine と呼ばれていました) は、乱雑なデータを処理するスタンドアロンのオープンソースの強力なデスクトップ アプリケーションです。データ ラングリング機能、つまりデータ クリーンアップと、ある形式から別の形式へのデータ変換を提供します。これはスプレッドシート アプリケーションに似ていますが、よりデータベースのように動作します。
これは、リレーション データベース テーブルと同様のデータに対して動作します。つまり、列の下にセルがあるデータの行に対して動作します。 1 つの OpenRefine プロジェクトは 1 つのテーブルです。ユーザーは、さまざまなフィルタリング基準を使用して行の表示を変更できます。すべての活動 データセットで実行された処理はプロジェクトに保存され、別のデータセットで再生できます。
3. Trifacta Wrangler
このツールはデータ ラングリング プロセスに役立ちます。データ ラングリングは、ある生の形式から別の形式にデータを手動で変換またはマッピングするプロセスとして大まかに定義されます。これにより、半自動ツールの助けを借りてデータをより便利に利用できるようになります。
Wrangler は、その方法を劇的に改善します。組織は多様なデータから価値を引き出します。 trifecta Wrangler では、データ視覚化、機械学習、人間とコンピューターの対話、およびデータ処理における最新の技術を活用することで、アナリストがデータをどのように活用できるかに新しいアプローチが適用されています。彼らの目的は、書式設定に費やす時間を減らし、データの分析により多くの時間を費やすという単純な目的です。これにより、乱雑な現実世界のデータを分析ツール用のデータ テーブルに対話的に変換できます。
4. DataCleaner
データ クリーナーは、データ品質分析アプリケーションおよびデータ品質ソリューションのソリューション プラットフォームです。そのコアは強力なプロファイリング エンジンであり、拡張可能であるため、データ クレンジング、変換、強化、DE の複製、マッチング、マージが追加されます。その機能の一部は次のとおりです。
5. Winpure Clean and Match
データ品質管理は、プロジェクトやキャンペーン全体の成功の背後にある最も重要な要素です。これは、ビジネスまたは消費者データの精度を高めるために特別に設計されたデータ クレンジングおよびマッチング スイートです。これは受賞歴のあるソフトウェア スイートで、メーリング リスト、データベース、スプレッドシート、CRM のクリーニング、修正、重複除去に最適です。 Access、Dbase、SQL Server などのデータベースに加え、Excel テーブルや Txt ファイルにも使用できます。
6. TIBCO Clarity
TIBCO Clarity は、Software-as-a-Service の形式で Web からオンデマンド ソフトウェア サービスを提供するデータ準備ツールです。異種ソースから収集された生データを検出、プロファイリング、クレンジング、標準化するために使用でき、正確な分析のための高品質のデータを提供できます。 d インテリジェントな意思決定。生データを管理するための TIBCO Clarity の機能:
7. Data Ladder
Data Ladder Company は、データ マッチング、プロファイリング、重複排除、エンリッチメント ツールを通じてビジネス ユーザーがデータを最大限に活用できるよう支援することを目的としたデータ品質ソフトウェア会社です。 Data Match Enterprise スイートは、顧客および連絡先のデータ品質の問題を解決するために特別に設計された、非常に視覚的なデスクトップ データ クレンジング アプリケーションです。 Data Match Enterprise には、発音、ファジー、ミスキー、および略語のバリエーションを検出するための複数の独自の標準アルゴリズムが含まれています
データ重複排除ソフトウェアは、データ品質、クレンジング、マッチング、および重複排除ソフトウェアの完全なソリューションを 1 つの簡単なソフトウェアで提供します。ソフトウェアスイートを使用します。
8. Star DQ Pro
データが正確、本物、最新であることを確認してください。正確さ、完全性、一貫性、タイムライン、一意性、有効性などのデータ品質の主要な要件に対応します。提供される機能は次のとおりです。
データ クレンジングは、大量のデータが保存されている場合に特に重要です。ダーティ データに対する修正アクションの目標は、エラーをできる限り重要でないものにすることです。データクレンジングを定期的に行わないとミスが蓄積し、業務効率の低下につながる可能性があります。ビッグデータに関する次回のブログでは、クラウドベースのデータ クレンジング ツールと Salesforce データベース用のツールをリストする予定です。
読み取り: 0