2020年 | プレスリリース?研究成果
個人情報保護を尊重した高精度なゲノム配列推定法を実現!深層学習を応用したこれまでにない手法
【発表のポイント】
- 多人数の個人の全ゲノム情報(参照パネル*1)を用いることなく、深層学習*2技術によって全ゲノム配列を推定する画期的な手法を開発
- 個人情報保護上の懸念を払拭
- 多くの研究機関で高精度な遺伝子型インピュテーション*3が可能になり、遺伝医学の進展に大きく貢献できると期待
【概要】
全ゲノム配列を、数万~数百万程度の限られた遺伝情報を取得するSNP*4アレイ解析のデータから推定する遺伝子型インピュテーションは、遺伝医学の研究等で頻繁に用いられる研究手法です。この手法は、多人数の個人の全ゲノム情報(参照パネル)を用いる必要があり、しかも参照パネルは個人情報保護の観点で研究機関の間での共有が困難です。
東北大学東北メディカル?メガバンク機構は、その難点を克服し、たくさんの個人情報の集合体である参照パネルを使わない新たな遺伝子型インピュテーション手法RNN-IMP(Recurrent Neural Network - IMPutation)法を開発し、従来法と遜色ない高い精度が実現できることを示しました。
今回開発されたRNN-IMP法は、深層学習技術を利用することで従来の手法で用いられていた参照パネルの代わりに個人識別が困難な数値パラメータ情報を用いる形で、遺伝子型インピュテーションをする手法です。本開発により、多くの研究機関においてもこれまでの数理モデルでは困難であった高精度な遺伝子型インピュテーションが可能となることが期待されます。
この成果は米国東部時間2020年10月1日に英国科学雑誌「PLOS Computational Biology」のオンライン版で公開されました。
図.RNN-IMP法は、参照パネルではなく数値パラメータ情報を用いて遺伝子型インピュテーションを行います。
【用語解説】
*1 参照パネル:数千以上の大規模検体についての全ゲノム配列から構成される遺伝子変異情報。遺伝子型インピュテーションを行う上で必要となる。参照パネルを構成する各検体の全ゲノム配列情報は、次世代シークエンサーにより計測されることが一般的である。なお、ToMMoより公開されている全ゲノムリファレンスパネルは、数千人分の変異情報を頻度情報として公開しているものであり、ここでいう「参照パネル」とは異なる。
*2 深層学習:ニューラルネットワークと呼ばれる脳内のニューロンを模した数理モデルを多層で構成することで高い精度でのパターン認識を可能とする人工知能技術。2012年に開催された画像認識の精度を競うコンテストにおいて従来の手法と比べ大幅な精度向上が可能であることが認知され、研究が急速に活発化し、現在の人工知能研究における主流の技術となっている。
*3 遺伝子型インピュテーション:観測済みの遺伝子変異情報から未観測の遺伝子変異情報を推定する手法。
*4 SNPアレイ:全ゲノム配列上に存在する一塩基多型(Single Nucleotide Polymorphism: SNP)を主とした遺伝子変異情報を計測する手法。計測できる遺伝子変異情報は、予め設計されたものに限られるが、ハイスループットシークエンサーよりも安価に計測が可能であることから、大規模検体を対象とした遺伝子変異情報の取得に用いられる。
問い合わせ先
(研究に関すること)
東北大学東北メディカル?メガバンク機構
ゲノムプラットフォーム連携センター
センター長 木下 賢吾(きのした けんご)
電話番号:022-274-5952
Eメール:kengo*ecei.tohoku.ac.jp(*を@に置き換えてください)
(報道担当)
東北大学東北メディカル?メガバンク機構
長神 風二(ながみ ふうじ)
電話番号:022-717-7908
ファクス:022-717-7923
Eメール:pr*megabank.tohoku.ac.jp(*を@に置き換えてください)