Testing FLUX.1 [pro] to create a Japanese-themed illustration. Discussing the challenges of avoiding anime aesthetics and sharing detailed prompts used for generating images.
相模原市で IoT 設計を受託しているファームロジックスです。
AI にイラストを描いて貰うことのできる diffusion model が人気です。OpenAI 社の DALL-E 3 に留まらず、Midjourney、SD3 Ultra など、さまざまな技術や実装が次々に発表されています。
その中でさらに、先週には Black Forest Labs 社から、FLUX.1 という diffusion model が発表されました。FLUX.1 にはいくつかのバリエーションがありますが、今までのイラストレーション AI の多くを超える品質を誇ると言われる FLUX.1 [pro] を、早速試してみることにしました。
現状、FLUX.1 [pro] は Black Forest Labs 社からは API でしか提供されておらず、また現在は招待制で、誰でも利用できるものではありません。その代わり、Replicate 社と fal.ai 社が提供するプラットフォームで利用できるようになっているので、それらを試してみました。
最初は Replicate を使ってみたのですが、今回は、描画時に指定するパラメタ(ハイパーパラメタ)の指定がオリジナルの Black Forest Labs 社版に近そうな fal.ai 版を使って、その結果をご紹介したいと思います。
実は今回、FLUX.1 [pro] を使って、ファームロジックスのトップページのイラストを作り直してみました。(従来は、DALL-E 3 や Ideogram で作成していました。) もし御興味あれば、トップページも御参照ください。
日本風と指定するとアニメチックになってしまう!?
実は以前に、この拙記事用に Ideogram にイラストを描いてもらったことがあります。こんなのです。
悪くはないのですが、青年が食べているのがカレーライスにはあまり見えないのが、残念なところでした。今回 FLUX.1 [pro] で、プロンプトを工夫しつつ、なんとか見られる感じになったのがこれです。
プロンプトは、以下の通りです。
A male engineering student eating Japanese-style curry rice with rich sauce using a spoon at a student cafeteria in Shinjuku. The setting captures a 1990s nostalgia vibe with a detailed, bustling urban environment typical of Shinjuku. The student is dressed in a plain and unfashionable manner, reflecting typical 1990s Japanese fashion. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.
確かに、イラストの品質は高いと思います。細かい部分の描き込みがしっかりしていて、プロンプトにもかなり忠実に描画しています。
しかし、です。アニメ風でなく、とか、ラフで太いペンタッチで、とか、いろいろ苦心してみたのですが、どうやってもアニメ風になってしまいます。この点では、上に挙げた Ideogram 版のほうが、私の好みです。カレーライスも、どちらかというとカレーチャーハンみたいな感じですね。
Japanese-style とか、Shinjukuとかいうキーワードが、イラストをアニメ風にしてしまうのでしょうか。そのようなキーワードをプロンプトから取り除いて、再度描いて貰いましょう。プロンプトを書き換えました。
A male engineering student eating curry rice with rich sauce using a spoon at a student cafeteria. The setting captures a 1990s nostalgia vibe with a detailed, bustling urban environment typical of town. The student is dressed in a plain and unfashionable manner, reflecting typical 1990s fashion. The illustration is in a nostalgic style, not anime, with a rough, non-delicate feel and thick pen strokes without emphasizing edges. The color tones are flat and simple, with minimal use of gradients.
うーん、やっぱりアニメ風になってしまいます。さらに、1990s というキーワードを除きつつ、以下 2点描いて貰いましたが、やっぱりアニメ風ですね。
curry rice をやめて、pizza にしてみましょうか。
やっぱりアニメ風です。anime というキーワード自体がいけないのでしょうか。現状の FLUX.1 [pro] では negative keyword を指定できないようなので、anime というキーワード自体を除いてみることにします。
日本風、ではなくなったような気もしますが、やっぱりアニメ調ですね。(どなたか、アニメ風でなくするテクニックを教えてください。。。)
他に気になるのは、背景にどうやっても漢字風の文字が入ってしまうことです。DALL-E 3 や Ideogram のニセ漢字に比べるとマシなほうですが、やっぱり変だと思います。どうしてだろう。私のユーザープロファイルが Japanese、あるいはアジア系であることが、diffusion model に伝わってしまっているんでしょうか。
次回の予告
次回は、以前にこちらで紹介したギャラリー(?)を、全て FLUX.1 [pro] に再描画して貰う計画です。お楽しみに…。