まったりAI勉強記

AI(人工知能)について、特にゆかりがあるわけでもない社会人が、まったりとAIについて勉強していく勉強日記です。

【G検定】ディープラーニングを実現するには

どうも、カタミチです。

さて、この節はどちらかというとハードウェア的な話になります。研究者の努力によってアルゴリズムが改良されることも重要な進歩ですが、一方で、それを実現するためのハードウェアの進歩も見逃せません。ということで行ってみましょう!

CPUとGPU

Intel社の創設者の1人であるゴードン・ムーアは言いました。

半導体の性能と集積は、18ヶ月ごとに2倍になる」

これはムーアの法則と呼ばれ、最近こそペースは落ちてきているとも言われていますが、すごい勢いで性能が上がったことは間違いありません。

コンピュータの演算処理装置として使われているものには、CPUGPUの2種類があります。CPUはCentral Processing Unitの略で、コンピュータ全般の作業を処理する役割を担います。様々な種類のタスクを順番に処理していくことに長けているので幅広く使われています。一方のGPUは、Graphics Processing Unitの略で、文字通り画像処理に関する演算に特化した装置です。様々なタスクをこなす事は苦手ですが、決められた処理を大規模かつ高速に行うのが得意です。

このGPUの性質は、ディープラーニングで行われるテンソル(行列やベクトル)の「同じような計算処理が大規模に行われる」という性質に向いています。現在では、画像以外の計算にも使えるように改良された、GPGPU(General-Purpose computing on GPUも登場しています。「グラフィック専用の多目的版だよ!」ってことですね。経緯を知らなかったら、何じゃこりゃ?って名前ですね(笑)

ちなみにこのGPUおよびGPGPUの開発を牽引しているのがNVIDIAです。覚えておきたい社名ですね。一方、Google社ではTPU(Tensor Processing Unit)というテンソル計算処理に最適化された演算処理装置を開発して、自前でやっているようです。すごいですねー。

ディープラーニングのデータ量

さて、そんなハードの進歩もありつつ、ディープラーニングで処理できるデータ量は増えていったわけですが、そもそもどのくらいのデータがあれば十分なのか?と明確に決まった数字はないそうです。(ないんかーい)

ただ、目安となる経験則として「モデルのパラメータ数の10倍のデータ数が必要」ってのがあるみたいです。これはバーニーおじさんのルールと呼ばれるらしいです。(…カールおじさんの仲間かな?)

まぁこの目安も、場合によってはとてもこんな数のデータを用意できない!って事もあり、あくまでも目安との事ですが、データ数が少なすぎる場合はまずデータ集めからやろうぜ、ってことは確かなようですね。

ということで

今日は、ハードとデータ量の話でしたね。計算理論も大切ですが、その計算を支えるハードウェアの進歩も大切…という事が学べました。GPUの今後のさらなる性能アップに期待!ってとこですかねー。

ではまた。

勉強に使ってる書籍はこちら↓
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版