Revisiting past illustration prompts like “drunk old man” and “curry-eating student” using OpenAI’s 4o to assess progress in realism and Japanese text generation.
相模原市で IoT 設計を受託しているファームロジックスです。
久々のブログ投稿です。昨日、OpenAI から新しい画像生成(イラストレーション)エンジン 4o Image Generation がロールアウトされました。
まだ全ての Plus ユーザーに提供されていない可能性がありますが、私のところで利用可能になったので、いくつか試してみました。いずれも、いままで「十分な品質のイラストレーションではあるけれど、もう少しプロンプトを賢く解釈して貰えれば…」と感じていたものです。
少しずつ追加するかも知れませんが、取り急ぎ数点公開させて頂きます。
ファームロジックストップページのイラスト
こちらは、FLUX.1 [pro](左)と 4o Image Generation(右)の比較です。
プロンプト: Illustration for a small tech company’s website banner. The scene captures a close-up of a tidy electronics workbench in a bright room. A powerful PC setup with dual modern LCD monitors dominates the desk, one showing coding in progress and another showing a 3D plotting. Keyboard is classic and mechanical one. Only one computer mouse is located at right hand. Behind the PC is a wall with framed technical charts. There is also a shelf on the wall, containing two or three tasteful decorations favored by engineers. Essential gadgets, including an eye-catching, brand-new digital oscilloscope with large screen and a well-worn power source, sit neatly above the screens. The desk’s right has a green protective sheet, a large and complicated electronic board wired to the aforementioned gadgets, a screw driver, a pair of tweezers, and hints of soldering tools. A touch of greenery peeks from a window beside the workbench, contrasting the high-tech environment. The whole image has a soft and warm hue, but gives a sense of hope for the future to audiences.
考察: FLUX.1 [pro] のほうがビビッドでリアルなイラストですが、プロンプト中の「The whole image has a soft and warm hue」を正確に反映しているのは 4o Image Generation のように思います。
街を行く酔った初老の男
こちらは、DALL-E 3(左)と 4o Image Generation(右)の比較です。
プロンプト: Simple illustration with orange tones capturing an 80s Japanese downtown scene without any text. A slightly drunk man in his 60s walks falteringly away, holding an alcohol bottle, with his back facing us. A mother and child, about 5 meters away, are turned away from the viewer, seemingly looking at the man with worry. The scene is set in the evening of a summer day, approximately 7 pm.
考察: DALL-E 3 ではできなかった、プロンプト中の「A mother and child, about 5 meters away, are turned away from the viewer, seemingly looking at the man with worry」を、4o Image Generation は正確に解釈しています。日本語で「酒屋」というテキストを生成できているのに驚きます。
カレースタンドでカレーライスを食べる学生
DALL-E 3(左)と 4o Image Generation(右)の比較です。
プロンプト: A Japanese student eating curry rice at a curry stand in Shinjuku, capturing a 1990s nostalgia vibe. The setting is detailed to reflect the bustling urban environment typical of Shinjuku. The student is dressed in a typical 1990s Japanese fashion, contributing to the nostalgic feel. The illustration is designed in a flat, simple style with soft, muted color tones.
考察: アスペクト比の指定を忘れていました。「カレイイスス」は、ちょっとおかしいです。でも、DALL-E 3 からのこれだけの進化を見ると、さらに 1年後には、もっときちんとした日本語を生成できてもおかしくないように思います。
取り急ぎ御報告まで。