モデルの適用範囲の考慮したアンサンブル学習法の開発 [Published online J. Comput. Chem. Jpn., 18, 187-193, by J-STAGE]

[Published online Journal of Computer Chemistry, Japan Vol.18, 187-193, by J-STAGE]
<Title:> モデルの適用範囲の考慮したアンサンブル学習法の開発
<Author(s):> 佐藤 圭悟, 金子 弘昌
<Corresponding author E-Mill:> hkaneko(at)meiji.ac.jp
<Abstract:> 定量的構造活性相関や定量的構造物性相関では,それぞれ化合物の活性・物性 y と化学構造の特徴を数値した分子記述子 x との間の関係を定量的にモデル化する.回帰モデルの予測性能を向上させるため,アンサンブル学習では複数のサブモデルを構築し,サブモデルからの y の予測値を統合して最終的な y の予測値を計算する.各サブモデルの適用範囲 (applicability domain, AD) を考慮することで,AD 内のサブモデルのみ用いてアンサンブル学習における予測性能が向上することは確認されているが,x が異なるサブデータセット間で AD の比較はできず,新しいサンプルごとにサブモデルを選択したり重み付けしたりして y の値を予測することはできなかった.そこで本研究では AD の指標の 1 つである similarity-weighted root-mean-square distance (wRMSD) に着目し,wRMSD に基づいてサブモデルの重み付けを行う wRMSD-based AD considering ensemble learning (WEL) を開発した.wRMSD は y のスケールであるため x の異なるサブモデル間で AD の比較ができ,wRMSD に基づいて各サブモデルからの y の予測値に重み付けすることで,予測値の信頼性の高いサブモデルほど重みを大きくして予測することが可能となる.水溶解度・毒性・薬理活性それぞれが測定された 3 つの化合物データセットを用いた解析をしたところ,WEL を用いることで従来のアンサンブル学習法と比較して AD が広がり予測性能が向上することを確認した.WEL の Python コードは https://github.com/hkaneko1985/wel から利用可能である.
<Keywords:> Ensemble learning, Regression, Applicability domain, QSAR, QSPR
<URL:> https://www.jstage.jst.go.jp/article/jccj/18/4/18_2019-0010/_article/-char/ja/