まったりAI勉強記

AI(人工知能)について、特にゆかりがあるわけでもない社会人が、まったりとAIについて勉強していく勉強日記です。

【G検定】音声処理と自然言語処理分野 その4

どうも、カタミチです。

さて、音声処理と自然言語処理分野の節は今回で最後ですね。早速見てみたいと思います!

自然言語処理におけるPre-trained Model

今回は、事前学習の話ですね。確か、事前学習は現在ではあまり使われない…ということだったと思うんですが、自然言語処理においては使われるんですかねー。事前学習+転移学習という枠組みで様々な応用タスクを高精度に解くことができるモデルとして、2018年に提案されたGPTBERTが紹介されていましたので見てみましょう。

GPT

GPT(Generative Pre-Training)が事前学習として行うのは、大規模なコーパスを用いた言語モデルの学習で、トランスフォーマーデコーダと似た構造を持ったネットワークです。評判分析(sentiment analysis)タスクに使える、入力データの与え方を工夫することで、自然言語推論(Natural Language Inference、NLI)質問応答(question answering)意味的類似度判定(semantic similarity)文書分類(document classification)などのタスクにも利用できます。

これらのタスクは、言語理解タスクと呼ばれており、これらの言語理解タスクをまとめた、General Language Understanding Evaluation(GLUE)ベンチマークというデータセットが公開されていて、世界中の研究者がこのデータセットでの精度を競っているようです。

BERT

BERT(Bidirectional Encoder Representations from Transformers)は、Googleが開発した事前学習モデルで、トランスフォーマーのエンコーダを利用しています。BERTでは、Masked Language Model(MLMNext Sentence Prediction(NSP)という2つのタスクにより事前学習を行います。

MLM:文内の単語のうち一部をマスクして見えない状態で入力し、マスクされた単語を予測させるタスク
NSP:2つの文をつなげて入力し、2つの文が連続する文かどうかを判定するタスク

エンコーダを利用していることで文全体が見えている状態なので、過去から現在までの一方向ではなく、未来から現在も合わせた両方向の情報を同時に扱うことができる点で強力です。

各単語の最終状態を使って品詞タグ付けや固有表現解析を行ったり、SQuAD(Standard Question Answering Dataset)のような回答の範囲を予測するタイプの質問応答タスクを解いたりすることも可能です。

Pre-trained Modelの発展

GPT、BERTと見てきて、最後に発展ですね。GPTやBERTが登場してからまだ数年しか経っていませんが、次々と新たな事前学習モデルが提案され続け、タスクを解く精度も上がり続けているので、最新の情報には常に目を光らせておく必要があります。成長中の分野だから、勉強をし続ける必要がある…ということですね。とりあえず、ざっと見てみましょう。

GPT、BERTのタスクの精度を落とさずにパラメータ数を削減する工夫をした、ALBERTDistilBERT。GPTの後継として、パラメータ数を増やしたGPT-2は、2019年2月の登場。また、同年9月には、NVIDIAからMegaton-LMというモデルが登場。さらに2020年2月には、MicrosoftからTuring-NLG、同年5月にGPTの最新版であるGPT-3…という具合に進化してきました。GPTのパラメータ数は約1億だったのに対し、GP-3では1750億のパラメータを扱うようになりました。

また、トランスフォーマーが画像処理分野にも持ち込まれ、CNNを使わない新たな事前学習モデルであるVision Transformer(ViT)といったものも提案されています。

ということで

まさに、自然言語処理は日進月歩といった感じですね。しかし、自然言語処理は言語ごとに研究の進み具合が異なりそうですね。日本語はどうなんでしょうねー。

いずれにせよ、非常に興味深い分野なので、G検定の勉強が終わったら深堀りしていきますかねー。

ではまた。

勉強に使ってる書籍はこちら↓
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版