2024.10.17 2024.12.17

RAGってよく聞くけど何？生成AIの技術革新を研究者がチェックした

松原太一

今回は、最近話題のAI技術「RAG」について解説します。ChatGPTやGPT-4/GPT-4oなどの大規模言語モデル（LLM）がブームになっている中で、RAGという言葉をよく耳にするようになりました。でも、正直なところ、私自身はこれまでRAGについてあまり知識がありませんでした。実際に論文でも提唱されているので、改めてしっかり調べてみることにしました。

私は普段、BlueMemeというIT企業で研究員をしている、バイオインフォマティクス（生物が持つさまざまな情報をITシステムで解析する分野）を専門とする大学院生です。LLMの技術は日々進化していて、私の研究分野にも大きな影響を与えそうです。そこで、RAGについて理解を深めるべく、調査してみました。さらに、生命科学におけるRAGの応用についても考えてみます。

RAGとは何か？

まず、RAGの正体から探ってみましょう。RAGは「Retrieval-Augmented Generation」の略で、日本語では「検索拡張生成」と訳されることがあります。これは、大規模言語モデル（LLM）の能力を外部知識で補強する技術のことを指します。簡単に言えば、RAGは「LLMに外部の情報源をプラスして、より正確で最新の情報を提供できるようにする方法」といったところでしょうか。

なぜRAGが注目されているのか？

ここで疑問が浮かびます。ChatGPTのような強力なAIがあるのに、なぜRAGが必要なのでしょうか？

実は、LLMには以下のような課題があります。

知識の更新が困難：LLMは学習時点の情報に基づいているため、最新情報を反映するのが難しい。
幻覚（ハルシネーション）：時として事実と異なる情報を、自信を持って出力してしまう。
ソースの不透明性：出力された情報の出所が不明確。

RAGは、これらの課題に対するソリューションとして注目を集めているのです。

実際に過去記事で、LLMはハルシネーションを起こすことについても紹介していたので、より頑健なシステムを作るための技術ということですね。

[nlink url=/2023/04/13/8things-to-know-about-llm-arxiv/]

RAGの仕組み

RAGの基本的な仕組みは、次のようなステップで構成されています。これにより、LLMは最新かつ正確な情報を基に回答を生成できるようになります。

クエリ理解：ユーザーの質問や指示を理解します。
情報検索：関連する外部情報源から適切な情報を検索します。
コンテキスト統合：検索結果をLLMの入力に統合します。
回答生成：統合されたコンテキストを基に、LLMが回答を生成します。

RAGの論文をチェックする

RAGの歴史は、生成AIの歴史と共にあるようです。2020年にFacebook (現Meta)が出したRAGの提唱論文で、数学的な観点を観察しましょう。その論文とは、Patrick Lewis氏らによって発表された2020年の、”Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks” です。

そのアルゴリズムの可視化は、下のような図になっています。RAGは文章から文章を生むようなシステムなので、具体的にその中身で何が起こっているかが書かれています。

Metaの研究者らが提唱したRAGモデル（Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks）より引用

RAGのアルゴリズムは、主に以下の要素で構成されています。

Retriever：質問や入力に関連する文書を大規模なコーパスから検索する機能。
Generator：検索された文書と入力を基に、回答を生成する言語モデル。
⇒ここで、図で示す青色のGeneratorと書かれている箱である、言語モデルが関わってきます。
Parameterized memory：検索用のインデックスとして機能する知識ベース。

RAGの処理フローは次のとおりです。

入力クエリを受け取る。
Retrieverが関連文書を検索：ポイントは、一旦コンピューターが処理しやすいように、クエリは高次元のベクトル表現に飛ばされるということのようです。その状況で、同じく知識ベース内の各文書ベクトルとの類似度計算が処理され、高い類似度の文書が選択されるようです。
検索された文書と元のクエリを組み合わせて、Generatorに入力：図でz1、z2、z3と書かれているところに関して、白と紫の情報が結合しているのが分かります。それがここで言う、入力との連結です。
Generatorが最終的な回答を生成：Generatorの入力はベクトルで、出力はトークンです。これは一旦飛ばされたベクトルが、人間が解釈できる普通のテキスト表現に戻ってくることを表しているようです。

著者らによると、プロセスは更新可能なパラメーターを持っているので（微分可能なプロセスと表現されている）、エンドツーエンドでの学習が可能だと思われます。

RAGの利点

RAGを導入することで、以下のような利点が得られます。

最新情報の反映：外部ソースから最新の情報を取得できる。
正確性の向上：事実に基づいた情報を提供できる確率が高まる。
透明性：情報のソースを明示できる。
カスタマイズ性：特定のドメイン知識を容易に統合できる。

バイオインフォマティクスとRAG

私の専門分野であるバイオインフォマティクスでも、RAGは大きな可能性を秘めています。RAGを活用することで、以下のような、より正確で最新の知見に基づいた情報処理が可能になりそうです。

最新の研究論文の情報統合：常に更新される生命科学の知見をAIシステムに反映。
ゲノムデータの解釈支援：大量のゲノムデータと最新の研究知見を組み合わせた解析。
個別化医療への応用：患者固有のデータと医学知識を統合した診断支援。

すでにDNA言語モデルの研究も出つつあるので、RAGとの統合は、今後のバイオインフォマティクスにおけるトレンドの一つになるかもしれないと感じました。

LLMをさらに進化させるRAGの大きな可能性

RAGについて調べてみて、この技術がLLMの限界を克服し、より信頼性の高いAIシステムを実現する可能性を持っていることがわかりました。RAGは比較的新しい技術なので、やはり生成AIの登場はIT技術に大きな変革を起こしていることが分かりますね。

参考資料

1.Lewis, Patrick, et al. [2005.11401] “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks” *Advances in Neural Information Processing Systems* 33 (2020)：9459-9474.
https://arxiv.org/abs/2005.11401

2. RAGの概要まとめ、今後 #rag – Qiita
https://qiita.com/applego/items/29546ed50d65bc9a8d56#rag%E3%81%AE%E6%AD%B4%E5%8F%B2

#AI #ChatGPT #GPT-4 #GPT-4o #LLM #Meta #OpenAI #RAG #バイオインフォマティクス