part 2: Concept EncoderのAI技術の強みと活用例

日常的に人工知能(AI)という言葉を耳にするようになった今、ヘルスケア・インダストリーでもAIの活用検討と実用化への各種取り組みが始まっています。FRONTEOヘルスケアは、ヘルスケア関連ビッグデータの利活用を促進するAIエンジンとして、自然言語解析に強みを持つ「Concept Encoder(コンセプトエンコーダー)」(特許出願中、論文投稿準備中)を開発しました。part 1ではEBM(後述)が求められるヘルスケア領域でConcept Encoderが生まれた経緯、本ページ(part 2)ではエンジンの特徴、さらに活用範囲まで、ヘルスケア・インダストリーにおけるAIのニーズをふまえて具体的にご説明します。 part 1: ヘルスケアで求められる人工知能とConcept Encoder開発の経緯 を読む

ベクトル型AIエンジンConcept Encoder

FRONTEOヘルスケアが特に注力して研究開発している領域は、自然言語処理(Natural Language Processing: NLP)による「自然文解析(テキスト解析)」です。解析は主に、AIにあらかじめ特徴を提示する、「教師あり機械学習」という方法で行っています。

ヘルスケア分野でエビデンスに基づいたテキスト解析を行うには、テキストの特徴を数値化し、統計学的解析を可能にする必要があります。NLPにおけるテキスト情報の数値化には、「形態素(単語)解析:複数の文章間での単語の出現頻度を評価」「構文解析:文章の係り受けを評価し数値化」など、いくつかの手法があります。Concept Encoderは、形態素解析のうち、「単語と文書のベクトル化」の手法を用いて、テキストの特徴を数値化しています。「単語と文書のベクトル化」とは、自然文を単語に分解した後、単語と文書に対して多次元の変数を設定して最適化を行う手法です。

Concept Encoderの特長

Concept Encoderは、「単語と文書のベクトル化」により、解析の対象となる自然文からより多くの情報量を抽出できます。これは、文書の特徴をより多面的に捉えられることを意味します。また、「単語と文書のベクトル化」により数値化されたデータは、抽出された情報量を保ったまま、文書や単語間の類似性・関係性をさまざまな統計学的手法で解析できます。つまり、Concept Encoderは、対象のテキストデータを目的の統計解析に自在に適用できる、使い勝手の良いAIエンジンなのです。

Concept Encoderの応用例の中から、ここでは5つご紹介します。

1) 文書間で比較ができる

下の図は”Word2Vec(word- to-vector)”と呼ばれる、自動翻訳などでも使用されている機械学習の手法の特徴です。
Word2Vecは、単語を要素によってベクトル表現化し(分散表現)、単語間の特徴を比較することができます。ベクトル型AIエンジンであるConcept Encoderも、この利点を備え持っています。Word2Vecで比較できるのは単語同士だけですが、「単語と文書のベクトル化」をおこなうConcept Encoderは、単語だけでなく、単語と文書全体を同時に比較できるという特長があります。Concept Encoderでは通常、分散表現を300~1,000次元として解析処理をしています。

文書間で比較ができる

2) ベクトル演算で、概念の演算ができる

Concept Encoderでは、ベクトルがその言葉の意味の範囲を含んでいるかのような挙動を示します。これは、Word2Vecでベクトル化した単語に対して見られる特徴の1つですが、Concept Encoderは、「単語と文書のベクトル化」処理により、単語に加えて文書もこの特徴を持ちます。そのため、単語や文書同士での「足し算」「引き算」や、「仲間はずれ検索」などが可能です。

ベクトル演算で、概念の演算ができる

3) 言語の特徴分布もクラスタリングで評価が可能

Concept Encoderは、「仕分け」も得意としています。各分類に特異的な単語や文書をクラスタリングすることにより、効率よく仕分けができます。

言語の特徴分布もクラスタリングで評価が可能

4) 個人の知識をトランスファーし、共有できる

Concept Encoderでは、知識のトランスファーも可能です。グループでお互いの知識を分かち合い使うことができるので、無駄なく効率よく研究開発を進めることができます。

個人の知識をトランスファーし、共有できる

5) アイデアを探索できる

Concept Encoderは、自由に記述した自身のアイデアの内容に類似した文書を探索することができます。この特長は、主に「Concept Encoder論文探索システム」に応用されていますが、FAQの自動応答などにも利用可能です。PubMedなどから必要な文献を読み込み、自身の研究アイデアを自由記述でConcept Encoderに書き込むことにより、アイデアに関連した文献を、記述内容と類似度の高い順にリストアップすることができます。
さらに、文献の中から、重要と思われるキーワードの自動抽出も可能です。また、文章としての自動サマリ機能も現在研究開発中です。

アイデアを探索できる

ヘルスケア・インダストリーで幅広く活用が可能

FRONTEOヘルスケアは、AIエンジンConcept Encoderを活用することで業務の効率化と属人性の解消を提案します。

Concept Encoderは、「診断支援」「ヘルスケア業務支援」「製薬業界支援」等、ヘルスケア・インダストリーの幅広い領域で運用を開始しています。解析対象のテキストデータは、英文の医療情報探索(論文、遺伝子情報、治験情報など)から、電子カルテに日本語で記述されたデータまで、実にさまざまです。

FRONTEOヘルスケアは、自然言語解析と統計解析を駆使し、医学的・科学的エビデンスに基づいた研究および各種ソリューション提供・製品開発をおこなうことにより、ヘルスケアの発展に貢献していきます。

part 1: ヘルスケアで求められる人工知能とConcept Encoder開発の経緯を読む