著者:Dwango Media Village 北岡 伸也 氏によるGPUコラム「トランスフォーマー 最近流行のニューラルネットワーク」を掲載しました。どのような仕組みでトランスフォーマが掲載されているか解説していただきました。

図 3:Embedding
著者:Dwango Media Village 北岡 伸也 氏

本文

ディープラーニングと聞いて、どのような仕組みを思い浮かべるでしょうか。
「なにかすごい仕組みで動いて、何でも解決してくれる万能ツール」という認識の方もいるかも知れません。あるいはもう少し詳しく、「ニューラルネットワークで構成されていて、多層パーセプトロン(MLP; Multi-Layer Perceptron)や畳み込み(Convolution)が、使われている」とご存じかも知れません。
​計算に大変なリソースが必要でGPUが利用されていることはよく知られていると思います。

本稿では、どういう場面でどのようなニューラルネットワークのアーキテクチャーが使われるかはなんとなく知っているけど、実際に使ったり実装してみたりしたことはないといった方を対象として、では実際にそれはどのような仕組みで計算されているのかについてトランスフォーマー(Transformer)を題材として解説します。