Black Forest Labs の FLUX.1 [pro] がアニメ風になってしまう件


Testing FLUX.1 [pro] to create a Japanese-themed illustration. Discussing the challenges of avoiding anime aesthetics and sharing detailed prompts used for generating images.

相模原市で IoT 設計を受託しているファームロジックスです。

AI にイラストを描いて貰うことのできる diffusion model が人気です。OpenAI 社の DALL-E 3 に留まらず、MidjourneySD3 Ultra など、さまざまな技術や実装が次々に発表されています。

その中でさらに、先週には Black Forest Labs 社から、FLUX.1 という diffusion model が発表されました。FLUX.1 にはいくつかのバリエーションがありますが、今までのイラストレーション AI の多くを超える品質を誇ると言われる FLUX.1 [pro] を、早速試してみることにしました。

現状、FLUX.1 [pro] は Black Forest Labs 社からは API でしか提供されておらず、また現在は招待制で、誰でも利用できるものではありません。その代わり、Replicate 社と 社が提供するプラットフォームで利用できるようになっているので、それらを試してみました。

最初は Replicate を使ってみたのですが、今回は、描画時に指定するパラメタ(ハイパーパラメタ)の指定がオリジナルの Black Forest Labs 社版に近そうな 版を使って、その結果をご紹介したいと思います。

実は今回、FLUX.1 [pro] を使って、ファームロジックスのトップページのイラストを作り直してみました。(従来は、DALL-E 3 や Ideogram で作成していました。) もし御興味あれば、トップページも御参照ください。


実は以前に、この拙記事用に Ideogram にイラストを描いてもらったことがあります。こんなのです。

A Japanese student eating curry rice at a curry stand in Shinjuku, capturing a 1990s nostalgia vibe. The setting is detailed to reflect the bustling urban environment typical of Shinjuku. The student is dressed in a typical 1990s Japanese fashion, contributing to the nostalgic feel. The illustration is designed in a flat, simple style with soft, muted color tones.

悪くはないのですが、青年が食べているのがカレーライスにはあまり見えないのが、残念なところでした。今回 FLUX.1 [pro] で、プロンプトを工夫しつつ、なんとか見られる感じになったのがこれです。

A male engineering student eating Japanese-style curry rice with rich sauce using a spoon at a student cafeteria in Shinjuku. The setting captures a 1990s nostalgia vibe with a detailed, bustling urban environment typical of Shinjuku. The student is dressed in a plain and unfashionable manner, reflecting typical 1990s Japanese fashion. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.


A male engineering student eating Japanese-style curry rice with rich sauce using a spoon at a student cafeteria in Shinjuku. The setting captures a 1990s nostalgia vibe with a detailed, bustling urban environment typical of Shinjuku. The student is dressed in a plain and unfashionable manner, reflecting typical 1990s Japanese fashion. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.


しかし、です。アニメ風でなく、とか、ラフで太いペンタッチで、とか、いろいろ苦心してみたのですが、どうやってもアニメ風になってしまいます。この点では、上に挙げた Ideogram 版のほうが、私の好みです。カレーライスも、どちらかというとカレーチャーハンみたいな感じですね。

Japanese-style とか、Shinjukuとかいうキーワードが、イラストをアニメ風にしてしまうのでしょうか。そのようなキーワードをプロンプトから取り除いて、再度描いて貰いましょう。プロンプトを書き換えました。

A male engineering student eating curry rice with rich sauce using a spoon at a student cafeteria. The setting captures a 1990s nostalgia vibe with a detailed, bustling urban environment typical of town. The student is dressed in a plain and unfashionable manner, reflecting typical 1990s fashion. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.

1344x768 A male engineering student eating curry rice with rich sauce using a spoon at a student cafeteria. The setting captures a 1990s nostalgia vibe with a detailed, bustling urban environment typical of town. The student is dressed in a plain and unfashionable manner, reflecting typical 1990s fashion. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.

うーん、やっぱりアニメ風になってしまいます。さらに、1990s というキーワードを除きつつ、以下 2点描いて貰いましたが、やっぱりアニメ風ですね。

A male engineering student eating curry rice with rich sauce using a spoon at a student cafeteria. The setting captures a 1990s nostalgia vibe with a detailed, bustling urban environment typical of town. The student is dressed in a plain and unfashionable manner. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients. A male engineering student eating curry rice with rich sauce using a spoon at a student cafeteria. The setting captures a nostalgia vibe with a detailed, bustling urban environment typical of town. The student is dressed in a plain and unfashionable manner. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.

curry rice をやめて、pizza にしてみましょうか。

A male engineering student eating pizza at a student cafeteria. The setting captures a nostalgia vibe with a detailed, bustling urban environment typical of town. The student is dressed in a plain and unfashionable manner. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.

やっぱりアニメ風です。anime というキーワード自体がいけないのでしょうか。現状の FLUX.1 [pro] では negative keyword を指定できないようなので、anime というキーワード自体を除いてみることにします。

A male engineering student eating pizza at a student cafeteria. The setting captures a nostalgia vibe with a detailed, bustling urban environment typical of town. The student is dressed in a plain and unfashionable manner. The illustration is in a nostalgic style, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.


他に気になるのは、背景にどうやっても漢字風の文字が入ってしまうことです。DALL-E 3 や Ideogram のニセ漢字に比べるとマシなほうですが、やっぱり変だと思います。どうしてだろう。私のユーザープロファイルが Japanese、あるいはアジア系であることが、diffusion model に伝わってしまっているんでしょうか。


次回は、以前にこちらで紹介したギャラリー(?)を、全て FLUX.1 [pro] に再描画して貰う計画です。お楽しみに…。


御返答は 24時間以内(営業時間中)とさせて頂いております。もし返答が届かない場合、何らかの事情でメールが不達となっている可能性がございます。大変お手数ですが、別のメールアドレス等で督促頂けますと幸いです。
