定義
アテンションは、シーケンス内のすべてのトークンペア間の重み付き関係を計算します。これがTransformerに長距離推論能力を与えます。マルチヘッドアテンションは多くのアテンション計算を並列に実行し、それぞれが異なる関係パターンを学習します。最新のバリアント(FlashAttention、スパースアテンション)は、長いシーケンスでアテンションを計算的に扱いやすくします。
例
「猫はマットの上に座った、なぜなら疲れていたから」では、アテンションはモデルが「彼」を「マット」ではなく「猫」にリンクするのを助けます。
Vedwixでの使用方法
概念的; カスタム訓練モデル以外で直接調整することはまれです。