KANSAI UNIVERSITY

データサイエンスとは

データサイエンス(Data Science、データに関する科学)とは、莫大かつ多様なデータを活用し、新たな価値を生み出すための学際研究です。

近年の情報機器の発展により、データを活用するためには3つの重要な課題を解決する必要があります。第1の問題はデータの量と構造的な問題であり、第2の問題はデータの質的な問題、第3の問題はデータの価値や有効性の理解に関する問題です。

第1のデータの量と構造的な問題とは、蓄積されている莫大な量のデータに加えて、動画像や音声、テキストのような構造を持たないデータ、人の視線のような技術発展により取得が可能となったデータから生じる問題です。まず、扱うデータの特性から適切な整形を行える技術が求められます。次に、莫大なデータを処理するためには処理効率を向上させる技術的手法の開発が求められます。また、人間の能力ではこのようなデータをすべて把握することはできないため、人間が認識できる何らかの表現形態の開発も必要とされます。

第2の問題であるデータの質的な問題とは、莫大なデータ内の属性、またはデータ間に複雑な関係が存在することから生じる問題です。属性間、またはデータ間でのパターンや規則性といっても、その関係が複雑なために組み合わせだけでも無限に近い組み合わせが存在することになります。それらすべてを検証していくことは不可能であるため、近似的に求め処理効率を向上させる方法などが必要になります。また、発見されたデータ間のパターンが複雑すぎると、人間がそこから意味を見つけだすことは困難になります。こうした意味でも、人間が認識でき、意味を付与することのできる表現形態を開発する必要があります。

第3の問題であるデータの価値や有効性の理解とは、データ処理によって得られた結果を人間が活用できないことから生じる問題です。上記2つの問題はデータ処理に関する技術が求められましたが、たとえどのような技術で処理をしたとしても実際にそれの価値や活用方法がわからなければ意味がありません。データを活用するすべての人がデータ処理技術を身に付けることは非常に困難であるため、データを活用する領域に関する知識獲得や価値を伝えるためのコミュニケーション能力、データの表現形態の開発が求められます。

データサイエンスは、大規模なデータから有益な情報を得るために生じる問題を解決するという課題を背負っています。つまり、データの規模や複雑性が大きくなることによって生じる処理効率や人間の認識力の限界、実際に活用できる情報の抽出、表現などの問題をクリアすることが求められています。そのため、データ分析における効率性と有効性の両者を達成するための技術的アプローチと応用領域における実用性を検証できる人材育成、研究拠点の形成がデータサイエンスにおいて非常に重要です。