近年,計算機の発達とインターネットの普及により,世界中で流通するデータ量は爆発的に増加している.
同時に,多量のデータから情報(知識)を自動的に取り出す技術,すなわち機械学習が発達し,多様な領域で応用されるようになった.
当研究室では,機械学習について,基礎と応用の両面を研究している.
特に,情報理論に基づき,データの情報量的な性質を重視する情報論的学習理論の立場を取っている.
これは,機械学習を「モデル化を通して,混沌としたデータの塊を秩序化するプロセス」と捉えるもので,データ圧縮と密接に関連する.
例えば以下のモデル選択問題は典型的な例である.
これは,複数の規則の中から,与えられたデータに最も相応しいものは何かを選ぶ問題である.
図は,●と×を二つの領域に分類する2値分類学習の問題を表している.
この図では折れ線による領域の分割がモデル(分類規則)に相当する.
全データを記述するためには,まず規則により大まかな傾向を示し,次にそこから外れる例外を個別に記述すればよい.
これにより,全データを個々に記述するよりも,少ない記述長で済み,データ圧縮が可能となる.
この図では,左は単純すぎるモデルで例外が多く,右は複雑すぎるモデルで,例外はないが規則の記述が大変である.
中央の規則が最もデータを圧縮できて,しかもデータの本質を捉えている.
従って,記述長を最小にする規則を選ぶことが,適切な学習に結び付くはずである.
これを記述長最小原理(MDL原理)と呼び,情報理論に基づいて定式化されている.
ピタゴラスの定理
|
当研究室では,このMDL原理と情報幾何学を基本に据えながら,
深層学習の理解を目標に,理論と応用の両面から取り組んでいる.
応用については,企業やその分野を専門とする他の研究機関と連携し,実践的な研究を行う.
【研究テーマ1】MDL原理
データ圧縮と機械学習の関係について,理論的に考察する.
特に,与えられたデータについて,それをどこまで圧縮できるかの限界を示す
確率的コンプレキシティの基礎研究や,MDL推定
量の汎化誤差評価などを行っている(イェール大学(米国)と共同).
|
【研究テーマ 2】誤り訂正符号
情報理論において,最近通信路容量を達成する誤り訂正符号として,LDPC符号,Polar符号,
スパース重ね合わせ符号が提案され世界的に研究が活発化している.
当研究室では,機械学習と関連が深いスパース重ね合わせ符号の研究を行っている.
|
【研究テーマ 3】サイバーアタック検知技術の研究
最近深刻化しているサイバーアタックを予知することを目標に,機械学習を用いた応用研究を行う.
例えば,MDL原理を応用してボットネット(ボットと呼ばれる悪性プログラムが作るネットワーク)を発見する手法などを提案している.
(情報通信研究機構,横浜国立大学,早稲田大学などとの共同研究)
|
|
【研究テーマ 4】画像解析技術
機械学習を画像解析に応用する研究を行っている.
現在は特に,
デジタルカメラやVTRにおいてデバイスの性能以上に画質を向上させる超解像やMRI(磁気共鳴画像法)の高速化について,深層学習を導入した研究を行っている.
|
|
【キーワード】
機械学習,深層学習,情報理論,モデル選択,情報量規準,データ圧縮,誤り訂正符号,データマイニング,サイバーアタック検知,超解像,MRI, 情報幾何学
|
ビジネス利用でも個人利用でも情報通信の果たす役割は年々大きくなっています.
私の研究室では「ディジタル通信」を研究しています.
ディジタル通信システム全体は非常に複雑ですが,
様々な技術的階層に分けて考えることが出来ます.私たちは
CDMA通信やマルチキャリア通信における時間と周波数の同期に注目しています.
CDMA通信は,複数の利用者が送受信を同時に行うマルチアクセス技術の1つです.
マルチキャリア通信は,一度に複数の搬送波(キャリア)を用いて並列的にデータ
を送る方式のことです.
連続時間・連続量のアナログの世界と離散時間・離散量を取り扱う
ディジタルの世界をつなぐのがAD/DA変換で,ディジタル通信の同期を確立
させる際も,この考え方が重要になります.
【研究テ−マ1】高精細AD/DA変換器
映像や音声は,もともと連続値を取るアナログ情報だが,標本化と 量子化を経て,デジタル情報へと変換される.
この操作を アナログ・デジタル変換(Analogue to Digital Conversion; AD変換) と呼ぶ.その逆操作がDA変換である.
AD/DA変換には,変換の高速化と 高精細化(より速く,より美しく)が求められている.
このうち, 量子化は,たとえば実数xを有限Lビットによる2進展開 x=0.b_1b_2...b_L (b_i=0 or 1)で近似することである.
アナログ値を受け付けるAD変換回路では,アナログ特有の 回路素子値の誤差が避けられない.
|
|
図1. 2進展開$\beta$進展開 |
【研究テ−マ2】記憶パターンに揺らぎのあるニューラルネットワーク
ニューラルネットワークは,動物の脳にある神経細胞の動作を
もとに作られた数理モデルである.私たちが得た色々な過去のデータは
1か所に1つずつ記憶されているのではなく,
多数の神経細胞間の結合として並列的に記憶されていると言われている.
本研究では,もともと1つだと思っていたニューロンが,実は
複数の小さなニューロン(サブニューロン)から出来ていたという
モデルを研究している.複数のサブニューロンをまたがって記憶すると,
より多数のデータが記憶できると予想している.
|
|
図2. 記憶パターン間に揺らぎのあるニューラルネットワーク
|
【研究テ−マ3】時間周波数同時領域表現に基づくCDMA通信の同期
通信を始めるにはまず同期を確立しなくてはならない.同期とは
送信者と受信者が,時間と周波数を揃えることである.
移動体通信における同期確立が困難な理由は,
1) 直接波とビルや山などの反射波による干渉,
2) 端末が移動することによる直接波と反射波の強度と位相の変化,
3) 高速移動により顕在化するドップラー効果の影響,などである.
本研究室では最近,時間・周波数の揺らぎに強いCDMAシステムを提案した.
|
|
図3.時間と周波数の揺らぎに強いCDMA通信
|