ビッグデータ V – ビッグデータの特性または課題を表す

誰もがビッグデータを 3 つ、4 つ、または 10 つの対のセットで定義します。これらの V は実際にビッグデータの概念の定義を私たちに与えているのでしょうか、それとも彼らが私たちに伝えようとしている何か別のことなのでしょうか?この V ベースの特性評価を使用する主な理由は、このビッグデータに伴う課題を強調することです。キャプチャ、クリーニング、キュレーション、統合、ストレージ、処理などの課題。

これらの V は、予想される課題に備えるための指示を示しています。ビッグデータの管理を開始すると次のような課題が発生する可能性があります。

大量に増加する

急速に増加する

大きな多様性を生成する

大きな変動性を伴う変更

大きな真実性を維持するためのプロセスが必要

変換すると大きな視覚化が得られる

隠れた大きな価値

これらの V は、組織が無視できないビッグデータとビッグデータ戦略の重要な側面を説明しています。ビッグデータのさまざまな属性に寄与するすべての V を見てみましょう。

1.量:

毎日 100 テラバイトのデータが Facebook にアップロードされます。 Akamai は 1 日あたり 7,500 万のイベントを分析してオンライン広告をターゲットにしています。ウォルマートは 1 時間ごとに 100 万件の顧客取引を処理しています。これまでに作成されたすべてのデータの 90% は、過去 2 年間に生成されました。

上記の数字は、大量のデータが何を意味するかを正確に表しています。データをビッグデータたらしめているのは、このデータの最初の特性です。この膨大な量のデータにより、このデータを保存するという課題が生じています。

関連項目: 無料のデータマイニングツールのベスト 19

2.速度:

1999 年 1 月、私たちは毎日 1 分ごとに 100 時間のビデオを YouTube にアップロードし、2 億通以上の電子メールを送信し、300,000 件のツイートを送信しました。

ボリュームの数値の根底にあるのは、さらに大きな傾向としては、既存データの 90% が過去 2 年間に作成されたものであるということです。これは、データが作成、保存、分析、視覚化される速度を表します。

組織が抱えている課題は、データがリアルタイムで作成および使用される膨大な速度に対処することです。

3.多様性

以前は、作成されるデータはすべて構造化データであり、列と行にきちんと収まっていましたが、その時代は終わりました。今日生成されるデータの 90% は構造化されておらず、地理空間データから、内容やセンチメントを分析できるツイートに至るまで、あらゆる形で存在します。写真やビデオなどの視覚データ。

Variety では、ビッグデータの最大の課題の 1 つについて説明しています。構造化されていない場合もあり、XML からビデオ、SMS まで、非常に多くの異なるタイプのデータを含めることができます。有意義な方法でデータを整理することは、特にデータ自体が急速に変化する場合には、簡単な作業ではありません。

4.変動性

変動性は、多様性と混同されることがよくあります。それを区別するための簡単な例は次のとおりです。スターバックスを思い浮かべてください。コールドコーヒーには非常に多くのフレーバーがあります。これはバラエティですよ。たとえば、カフェモカを毎日購入すると、味や香りが毎日少しずつ違ってくるとします。それは変動性です。

ビッグデータの文脈における変動性は、いくつかの異なるものを指します。 1 つはデータの不一致の数です。有意義な分析を行うためには、異常値や外れ値の検出方法によってこれらを見つける必要があります。ビッグデータは、複数の異なるデータ型とソースから生じるデータの次元が多数であるため、変動しやすいものでもあります。変動とは、ビッグデータがデータベースに読み込まれる速度が一貫していないことを指すこともあります。

関連項目: 最適なオフラインデータクリーニングツール

5.真実性

ビッグデータを理解する上で重要なのは、その乱雑でノイズの多い性質、そして分析を開始する前に正確なデータセットを作成するために費やされる作業量です。分析対象のデータが不正確または不完全であれば、役に立ちません。

この状況は、データストリームがさまざまな信号対雑音比を持つさまざまな形式を示すさまざまなソースから発信されている場合に発生します。ビッグデータ分析に到達するまでに、この蓄積されたエラーが蔓延している可能性があります。

正確性とは、データが正確であることを確認することです。これには、システムに不正なデータが蓄積しないようにするプロセスが必要です。最も単純な例は、偽名と不正確な連絡先情報を使用してマーケティングオートメーションシステムに侵入する連絡先です。データベースでミッキーマウスを何回見たことがありますか?これは古典的な「ゴミを入れてゴミを出す」チャレンジです。

6.視覚化

これはビッグデータの難しい部分であり、失敗するとこの膨大なデータが役に立たなくなります。ビッグデータ処理システムの中核となるタスクは、その膨大なスケールを、理解しやすく実用的なものに変換することです。人間が利用する場合、これに最適な方法の 1 つは、データをグラフィック形式に変換することです。

現在のビッグデータ視覚化ツールは、次のような理由により技術的な課題に直面しています。インメモリテクノロジの制限と、スケーラビリティ、機能性、応答時間の低さ。従来のグラフでは 10 億のデータポイントをプロットするニーズを満たすことができないため、データクラスタリングや、ツリーマップ、サンバースト、平行座標、円形ネットワークダイアグラム、円錐ツリーの使用など、データを表現するさまざまな方法が必要です。

7 。価値

価値は最終的なゲームです。ビッグデータの潜在的な価値は膨大です。量、速度、多様性、変動性、真実性、視覚化を処理した後は、多くの時間と労力がかかりますが、組織がデータから価値を確実に得ていることを確認することが重要です。

もちろんです。、データ自体にはまったく価値がありません。価値は、そのデータに対して行われる分析と、データがどのように情報に変換され、最終的に知識に変換されるかにあります。

上記の 7 つの V は、ビッグデータの 3 つの重要な側面、つまり定義、特性、データについて示しています。課題。しかし、人々が前述の 7 つの V の課題に直面するための方法を発明するためにビッグデータの研究を始めたとき、他のいくつかの V に遭遇しました。それらはビッグデータにおいて重要な役割を果たしませんが、特性と課題のリストを完成させます。

8.有効性

真実性と同様に、有効性は、データが目的の用途に対してどれだけ正確で正しいかを指します。ビッグデータの真実性は有効性の問題であり、データが意図された用途に対して正しく正確であることを意味します。明らかに有効なデータは、正しい意思決定を行うための鍵となります。データ検証は、データの送信が破損していないことを証明するものです。

9.実行可能性

以下の文について考えてみてください:

時間帯や曜日は購買行動にどのような影響を及ぼしますか?

価格の急上昇はありますか? Twitter または Facebook で、購入額の増加または減少を予見するという言及がありますか?

地理的位置、製品の入手可能性、時間帯、購入履歴、年齢、家族構成、利用限度額、および車種をすべて統合して予測する方法は何ですか?

私たちの最初の仕事は、そのデータの実行可能性を評価することです。なぜなら、効果的な予測モデルを構築する際には非常に多くの種類のデータと変数を考慮する必要があるため、迅速かつコストを抑えて、完全な機能を備えたモデルの作成に投資する前に、特定の変数の関連性を効果的にテストして確認します。言い換えれば、さらなる行動を起こす前に、そして、ある計画の実行可能性を判断する過程で、その仮説を検証したいと考えています。変数を使用すると、他の変数 (最初の仮説の一部ではなかった変数) が、望ましい結果または観察された結果に意味のある影響を与えるかどうかを判断するために視野を広げることができます。

10.ボラティリティ

データが無関係、歴史的、またはもう役に立たないとみなされるまでに、どれくらい古いデータが必要ですか?データはどれくらいの期間保存する必要がありますか?

ビッグデータの変動性について話すとき、私たちがビジネスで毎日導入している構造化データの保存ポリシーを簡単に思い出すことができます。保存期間が過ぎると、簡単に破棄できます。

ただし、ビッグデータの速度と量のため、その変動性については慎重に考慮する必要があります。次に、データの最新性と可用性に関するルールを確立し、必要なときに情報を迅速に取得できるようにする必要があります。

11.脆弱性

2015 年のアシュリーマディソンハッキングを覚えていますか?それとも、2016 年 5 月に CRN が「Peace と呼ばれるハッカーが販売目的でデータをダークウェブに投稿したことを覚えていますか。そのデータには、1 億 6,700 万件の LinkedIn アカウントと、MySPace ユーザーの 3 億 6,000 万件の電子メールとパスワードに関する情報が含まれていたとされています。

Bigデータには新たなセキュリティ上の懸念が伴います。特にこれらの特性により、ビッグデータのセキュリティプログラムを開発するのは困難になります。結局のところ、データ侵害は大きな侵害です。

では、これらすべてはビッグデータの性質について何を物語るのでしょうか?それは大規模で急速に拡大していますが、騒がしく、乱雑で、常に変化し、何百ものフォーマットで存在し、分析と視覚化がなければ実質的に価値がありません。

量、速度、多様性だけが重要なパラメータではありません。しかし、それらはビッグデータの概念と、通常のデータとビッグデータを区別する重要な機能を生み出す理由でもあります。これらはビッグデータ自体に固有のものですが、もう 1 つの V の可変性、真実性、視覚化、価値は、ビッグデータを処理、分析し、そこから恩恵を受ける人々にビッグデータがもたらす巨大な複雑性を反映する重要な属性です。

ビッグデータは、企業の IT 部門が適切なコンピューティングインフラストラクチャで対応する必要がある重要なトレンドであることは間違いありません。しかし、すべてを理解するための高性能の分析とデータサイエンティストがなければ、ビジネス上の利点につながる価値を生み出すことなく、単に大きなコストが発生するだけのリスクにさらされます。

_{読み取り: 0}