■ 研究概要
データ計測技術とデータ処理技術が発達したことで,さまざまな分野の「ビッグデータ」が得られるようになりました.ビッグデータをコンピュータで分析して不確実なことを予測したり,新たな知識を発見したりするアプローチは「データ科学」と呼ばれており,理論、実験、シミュレーションに次ぐ「第4の科学」としてさまざまな分野で有望視されています。ビッグデータを分析するためのコンピュータプログラムをつくる技術は「機械学習(マシーンラーニング)」と呼ばれています。マシーン(機械)とはコンピュータのことで,コンピュータがデータに潜む知識を自動的に学ぶという意味でこのように呼ばれています.さまざまな分野のビッグデータから知識を得るためには機械学習の技術が不可欠です.わたしたちの研究室では,機械学習の研究とデータ科学の実践を通して社会に貢献し,人材を育成します.
機械学習の研究
- 機械学習アルゴリズムに関する研究
機械学習アルゴリズムの目的は不確実なことを予測したり,新たな知識を発見したりできるようなコンピュータプログラムを自動的に作成することです.このような問題を数学的に記述すると「最適化問題」と呼ばれる形で表現することができます.こういった最適化問題をいかに効率的に解くかということが機械学習の重要な課題の一つです.わたしたちの研究室では,機械学習分野の最適化に関する研究を行っています。わたしたちが研究を進めている正則化パス追跡法と呼ばれる方法を使うと,複数の最適化問題を一度に効率的に解くことができます.
- 統計的データ分析手法に関する研究
世界は不確実性に満ちており,ビッグデータを分析したからと言ってすべてを確実に予測できるというわけではありません。データ科学の重要な課題の一つは「不確実性」を定量化することです。ある事柄がどのくらいの確率で起こるのか,分析結果として得られた知識がどのくらい信頼できるのか、といったことを正確に定量化することによってよりよい意思決定が可能となります。わたしたちの研究室ではさまざまな統計データ分析手法の開発を行っています。わたしたちのグループが開発に関わったカーネル分位点回帰分析と呼ばれる方法は世界中のさまざまな分野で利用されています.
- ビッグデータ分析の効率的アルゴリズムに関する研究
ビッグデータを効率的に処理して分析するには,データ全体のなかから重要な要素とそうでない要素を判断し,重要な要素に特化して分析を行うことが有益です.このようなアプローチの一つにスパースモデリングと呼ばれるものがあります。スパースモデルとはデータを記述するモデルが一部の変数のみを使って簡潔に表現されることを意味します。わたしたちの研究室ではビッグデータのためのスパースモデリングに関する研究を行っています.わたしたちが研究を進めているセーフスクリーニングという方法を使うと,重要でない要素をデータ分析の前に特定できてしまうため、効率的にビッグデータを分析することができます.
データ科学の実践
- 医療情報学に関する研究
現在の医学は経験と直感に頼るだけでなく,客観的な証拠に基づいて行うことが推奨されており,このような考え方は「証拠に基づく医療(evidence-based medicine)」と呼ばれています.医療現場では,さまざまな臨床情報に加え,網羅的な遺伝情報が得られるようになっています.わたしたちの研究室では多くの医学研究者と共同研究を行っています.大規模な医療データの情報分析と統計分析を通して医学に貢献しています.
- 生物情報学に関する研究
データ科学がもっとも成功している分野は生物学かもしれません.現在の生物学研究ではゲノム情報を解析することによって客観的かつ定量的に生物を理解することが主流となっています.わたしたちの研究室では,生物学研究者との共同研究を行っており,ゲノム情報の解析を通して生物学へ貢献しています.
- 材料情報学に関する研究
望ましい物性を持った新規材料を作成するには多くのコストがかかります.データ科学を利用して新規材料を効率的に発見しようとする試みは「材料情報学(マテリアルインフォマティクス)」と呼ばれています.わたしたちの研究室では,材料情報学に関する研究プロジェクトを2014年より開始しました.