そういう、モデルなんです。

ビジネスモデル、3Dモデル、設計図、模型などの現状と動向を考察、関連書籍の紹介

Stable Diffusion v2 での画像生成エラー

Stable Diffusion Web UI で現時点で最新のモデル

  • v2-1__768-ema-pruned.safetensors 

を何とかダウンロードして利用したところ、画像生成エラーとなった。

"Upcast cross attention layer to float32" オプションのチェックをオンにして、設定を適用 Apply settings でエラーは解消した。

エラーメッセージ

NansException: A tensor with all NaNs was produced in Unet.
This could be either because there's not enough precision to represent the picture, or because your video card does not support half type.

Try setting the

"Upcast cross attention layer to float32" option in Settings > Stable Diffusion

or

using the --no-half commandline argument to fix this.

Use --disable-nan-check commandline argument to disable this check.

"Upcast cross attention layer to float32" オプションを変更

これをチェックにするだけではエラーは解消しない。

設定を適用 Apply settings する必要がある。

出てくる画像の品質、それほど高くない

Stable Diffusion を素のまま使うのでは、Bing Image Creator (Dall-e) に太刀打ちできない。魔改造しないとダメなのか…

  • GRAM 8GB あっても時々エラー
  • 日本語プロンプトが通らない(と思えるぐらい結果がおかしい)
  • Bing Image Creator (Dall-e)  のほうが常に品質が高い
  • 標準モデル v2 でも、v1 からの品質向上は感じられない

Fooocus、SDXL に移行したら各段に品質が上がった

  • MSI GeForce GTX 1060 AERO ITX 6G でもエラーにならない
  • 日本語プロンプトは相変わらず通らないが、英語であれば結果は満足
  • 画像の品質は Bing Image Creator (Dall-e)  に劣るものではなく、数えきれないほどあるスタイル指定でテイストを調整できる
  • SDXL なので、標準モデル v2 よりも品質向上している

tombi-aburage.hatenablog.jp

野良 Lora との組み合わせで、さらに偏向した画像生成も可能

由緒正しくない偏向気味の画像を生成したい場合、Lora を組み合わせることになるが、最近の画像生成AIサイトは、野良 Lora がしのぎを削る場所になっている。

Lora をいちいちダウンロードして管理するのも面倒なので、標準的な画像生成AIで生成した画像をこういうサイトに投稿して改造するのが楽だろう。

欲しいのが結果だけなら。

tombi-aburage.hatenablog.jp