AIで画像生成する際に、CFG Scaleという項目があります。
この数値はStableDiffusionではデフォルトで『7』が設定されており「デフォルトから変更したことがない」という人も多いのではないでしょうか。
私自身もCFG Scaleはかなり蔑ろにしてきたので笑、メモがてらに検証していきます。
数値を調整しながら、生成される画像の違いをお伝えするので、よければ参考にしてみてください。
同一の画像でCFG Scaleの数値を変更
Stable DiffusionのXYZ plotにて、CFG Scaleを1.0〜9.0に設定した一覧がこちら。
ご覧いたければ分かる通り、CFG Scaleの数値が小さいほど、ボヤけた柔らかいイメージの画像が生成されています。
デフォルトの7は確かに安定感がある画像ですが、3.0〜9.0くらいまでは、プロンプトやモデルの相性次第では活用できそうです。
ちなみにもう少しCFG Scaleの数値を上げるとこうなります。
こうやってみると、CFG Scale13.0くらいまでも許容かもしれません。
それ以降になると、精巧な画像というよりは、もはやアーティスティックな画像になってしまうようです。
勿論、プロンプトやモデルの相性にもよりますが、CFG Scaleは大きく見積もっても3.0〜15.0くらいに収めた方が良さそう、というのが現状の感想です。
Sampling stepsとの相性
CFG ScaleはSampling stepsの数値を変更すると、また少し見え方が変わることもあります。
少し小さくて見づらいですが、以下の一覧をご覧ください。
どの組み合わせが良い!というのは条件によりけりなのですが、例えばCFG Scaleが9.0で、stepsが15,20あたりだと彩度がイマイチですが、steps30だと比較的自然な彩度で、良い雰囲気なのが分かると思います。
このように、CFG Scaleと一緒にSampling stepsの数値を変更することで、ご自身の好みの雰囲気に変更することができます。
今まで「プロンプトやネガティブプロンプトだけで調整していた」という人は、ここら辺の数値をいじってみるのも得策かと思います。
CFG Scaleについて
CFG Scaleとは、そもそもプロンプト内容に従う強弱の数値とされています。
では数値を上げれば完璧な画像ができるのか、というと、上記の様にそうではない事がわかります。
参考までに、Loraなどを整えて高画質化したCFG Scale3.0の画像がこちら。
よくも悪くも、フワッとした印象のある画像が生成されました。
一方で、CFG Scale11.0の画像も見てみましょう。
変な部分に腕が生えていますが笑、画像の精巧度が異なるのが比較すると伝わるかと思います。
諸々の調整を加えると、このようなAI美女を比較的簡単に生成することができます。
またCFG Scaleはstepsだけでなく、プロンプトとの相性によると思います。
XYZ Plotをうまく活用して、理想の画像に近づけてみることをおすすめします。