DALL-E 3 vs Ideogram 1.0 — 豊富なボキャブラリが知的生産者の評価に

投稿者: | 2024年3月8日

Delving into the innovative world of illustration AI, we provide an in-depth comparison between Ideogram 1.0 and DALL-E 3, focusing on artistic styles, precision in text embedding, and how English vocabulary plays a crucial role in shaping the quality of generated illustrations.

A serene and minimalist illustration featuring two modern robots sitting side by side, meticulously drawing a charming panda in a bamboo forest on their individual canvases. The robots are sleek, with a futuristic design, and have a gentle, human-like expression. The background showcases the calming and focused atmosphere of the blog, with a wide aspect ratio that emphasizes the tranquility of the scene. Soft, muted color tones create a harmonious and soothing effect., illustration

相模原市で IoT 設計を受託しているファームロジックスです。

巷で話題の Ideogram(アイディオグラム “eye-diogram” と読むそうです)を、もう皆様はお試しになられましたか?  もし(ChatGPT で有名な)OpenAI 社イラスト作成 AI の DALL-E を御利用の方であれば、Ideogram を試してみる価値があるかと思います。現在のところ、無料枠でもかなり多くのことを試せるのも魅力です。実はこの 2月末に Ideogram のバージョン 1.0 がリリースされ、巷で評判になっているところです。

Ideogram は何が得意なのか?

同じプロンプトを使って DALL-E 3(ChatGPT 経由)と Ideogram 1.0にイラストを描かせてみると、一番の相違は画風が異なることだと思います。こればかりは言葉で表現するのは難しく、実際にお試し頂くしかないと思います。私の印象でいうと、ChatGPT がややマンガ的なイラストを描くのに対して、Ideogram はもっと印象的で繊細な描画をするように感じます。(ただし、技術的なイラストに関しては、DALL-E のほうが多くの素材で訓練されているようにも感じます。)

Ideogram の大きな強みは、テキストを(DALL-E よりも)正確にイラスト中に埋め込むことができる点でしょうか。DALL-E だとかなりの誤り(タイポ)を生じますが、Ideogram は DALL-E に比べると、かなり安定して正しくテキストを埋め込みます。Ideogram の公開作例を見てみると、その多くがテキストを含んでいる点からも、利用者の期待が窺われます。

もう一つの強みは、作画のアスペクト比の種類が 9:16、10:16、2:3、3:4、1:1、4:3、3:2、16:10、16:9 と豊富なことです。(DALL-E では、現状「ポートレイト」、「正方形」、「ワイド」しか選べません。)

そして Ideogram の最大の強みは、プロンプトをより厳密に解釈する能力がある点ではないでしょうか。試しに、次のプロンプトで DALL-E と Ideogram にイラストを作成させてみました。(註: 正確に言うと、このプロンプトは Ideogram の Magic Prompt(後述)を参考に記述したものなので、フェアな比較ではないかも知れませんが。)

プロンプト: A charming and whimsical anime scene featuring a raccoon and a fox wearing giant panda costumes, pretending to be the rare and attractive pandas to please the children. The costumes have panda head masks, paws, but their tails are their owns by silly mistake. The narrow mountain road is lined with bamboo stalks, creating a picturesque setting. The sky is a soft blend of pink and orange hues, casting a warm glow over the village below., anime

日本語訳: 魅力的でひょうきんなアニメシーンで、アライグマとキツネが子供たちを喜ばせるために、珍しい魅力的なパンダのフリをして巨大なパンダのコスチュームを着ています。コスチュームにはパンダの頭のマスクと手袋がついていますが、間違えて自分たちの尻尾がそのままになっています。狭い山道は竹の茎で縁取られ、絵のように美しい場所を作り出しています。空はピンクとオレンジ色が混じり合った柔らかな色合いで、下の村に暖かな光を投げかけています。

1970年頃の生まれの方の中には、「おらが村にもパンダが…♪」というフレーズを思い出した方があるかも知れませんが、それは気のせい、です。 🙂

DALL-E 3 によるもの

A charming and whimsical anime scene featuring a raccoon and a fox wearing giant panda costumes, pretending to be the rare and attractive pandas to please the children. The costumes have panda head masks, paws, but their tails are their owns by silly mistake. The narrow mountain road is lined with bamboo stalks, creating a picturesque setting. The sky is a soft blend of pink and orange hues, casting a warm glow over the village below., anime

Ideogram 1.0 によるもの

A charming and whimsical anime scene featuring a raccoon and a fox wearing giant panda costumes, pretending to be the rare and attractive pandas to please the children. The costumes have panda head masks, paws, but their tails are their owns by silly mistake. The narrow mountain road is lined with bamboo stalks, creating a picturesque setting. The sky is a soft blend of pink and orange hues, casting a warm glow over the village below., anime

どちらも良いイラストレーションだと思いますが、私は Ideogram 版のほうが、少し好きでしょうか。尾っぽに関する指定を間違いなく描画できているのは、Ideogram の強みだと思います。

表意文字、の皮肉

ideogram という単語を辞書でひくと「表意文字」という訳が出てきます。つまり、ラテン系のような文字ではなく、漢字のような文字のことですね。

しかし皮肉なことに、現在の Ideogram 1.0 は、日本文字(漢字を含む)の生成がうまくできません。これに関しては、将来の改善が期待されるところです。

ちなみに v1.0 では、プロンプト入力に日本語などの外国語が利用できるようになっています。

Magic Prompt

Ideogram 1.0 では、Magic Prompt(魔法のプロンプト)という技術を利用できるようになりました。これは、DALL-E 3 を ChatGPT が利用するときの利用例を思い出すと分かるのですが、ChatGPT は 人間の入力した自然なテキストを、DALL-E が利用しやすいようなプロンプトに自動変換してくれているのです。(この機能にお気づきでない方は、ChatGPT 経由で生成された DALL-E のイラストをクリックし、さらに丸字に i というアイコンをクリックしてみてください。ChatGPT が DALL-E 用に生成したプロンプトを見ることができます。)

Magic Prompt は、ChatGPT のこの機能と同等のもので、大規模言語モデル(LLM)で実装されているようです。外国語入力のプロンプトを、画像生成モデルが理解可能な言語(英語等)に翻訳する能力もあるようです。この Magic Prompt により、従来のバージョンの Ideogram に比べて、より高い描写力のイラスト作成が期待できそうです。

語彙の豊富さが知的生産者の評価指標になる?

Ideogram の公開作例を見ていると、多くの方が、プロンプトの記述に多くの力を入れていることが分かります。特に、使われる形容詞の多彩さでしょうか。よく見られる形容詞としては、captivating(魅力的な)、fascinating(魅力的な)、stunning(驚くほど美しい)、vibrant(鮮やかな)などがあるでしょうか。

これら英単語の語彙に乏しい私(もしかして、多くの日本人)としては、これでは英語ネイティブの人に比べて、AI の利用スキルで負けてしまうことになるのではないでしょうか。ちょっと不安になり、ChatGPT(GPT 4)に聞いてみました。

:

AI イラストレーションのプロンプトによく現れる英語の形容詞を20ほど教えてください。

ChatGPT:

AIイラストレーションのプロンプトでよく使われる英語の形容詞をご紹介いたします。これらの形容詞は、イメージの雰囲気や特徴を表現するのに役立ちます。

  • Enchanting (魅惑的な)
  • Rustic (素朴な)
  • Luminous (光り輝く)
  • Serene (穏やかな)
  • Vibrant (鮮やかな)
  • Ethereal (空想的な)
  • Majestic (壮大な)
  • Surreal (超現実的な)
  • Mystical (神秘的な)
  • Tranquil (静かな)
  • Whimsical (気まぐれな)
  • Nostalgic (懐かしい)
  • Dystopian (ディストピア的な)
  • Picturesque (絵のように美しい)
  • Gloomy (陰鬱な)
  • Minimalistic (ミニマリスティックな)
  • Futuristic (未来的な)
  • Baroque (バロック様式の)
  • Gothic (ゴシック様式の)
  • Dreamy (夢見心地の)

これらの形容詞を使用することで、望むイメージの雰囲気をより具体的に伝えることができます。

これは大変です。若い学生諸君ならともかく、われわれの世代がこれから、これらのボキャブラリを駆使するのは大変なことではないでしょうか。

しかし逆に言うと、ChatGPT のような AI ツールを活用できる時代のオジサンである我々としては「チャンス」とも言えそうです。つまり、ChatGPT をシソーラス(類語辞典)のように使えばいいのです。

:(少し書き換えています)

(略)これら 5つの類似した形容詞の使い分けを教えてください。ニュアンスの違いなど。

ChatGPT:

これらの形容詞はいずれも魅力的なものや印象的なシーンを表現するために使われますが、それぞれ微妙に異なるニュアンスを持ちます。

  1. Captivating: 「Captivating」は、見る人の注意や関心を強く引きつけるものを指します。この言葉は、人や物の美しさや魅力が、見る人を引き込む、虜にするというニュアンスを持ちます。心を惹きつけられるような、魅力的な特徴を持つものに対して使われます。
  2. Fascinating: 「Fascinating」は、非常に興味深く、思わず見入ってしまうようなものを指します。この言葉は、知的な魅力や興味を引く特徴が強調される場合によく使われます。人を惹きつけるが、それが美しさだけでなく、興味や好奇心を刺激するときに用いられます。
  3. Mesmerizing: 「Mesmerizing」は、人を催眠状態に近い、夢中にさせるほどの魅力があるものを表します。この言葉は、視覚的な美しさや独特な魅力が強く、見る人を完全に引き込む、魅了する力があるものに対して使われます。
  4. Dazzling: 「Dazzling」は、非常に明るく、眩しいほどの美しさや輝きを指します。この言葉は、目を見張るような輝きや素晴らしさ、しばしば直接的な視覚的印象に関連して使用されます。目がくらむような強烈な効果や魅力を持つものに使われることが多いです。
  5. Stunning: 「Stunning」は、驚くほど美しい、あるいは非常に印象的で心を打つようなものを指します。この言葉は、美しさ、スタイル、または全般的な印象が非常に強力で、見る人を驚かせるか、息をのむような感覚を与えるものに対して使われます。

これらの形容詞を使い分ける際には、伝えたい具体的な感情や印象を考えながら、最も適した言葉を選ぶと良いでしょう。

すばらしいですね。もう少し質問してみます。

:

fascinating の語源はなんですか?

ChatGPT:

「Fascinating」の語源は、ラテン語の「fascinare」に由来します。このラテン語の意味は「魅了する」、「魔法にかける」または「呪う」といった意味を持っています。この言葉は、時間を経て英語に取り入れられ、「魅力的な」、「興味深い」という意味を持つ形容詞として用いられるようになりました。初期には魔術や魔法の力による魅了を意味していましたが、現代では何かに強く引きつけられる、または興味を持たせるような魅力を表現する際に使われます。

これは実に強力なツールと言えるのではないでしょうか。英単語の語源については、Longman や Oxford などの英英辞典をひもとけば出てくる場合もありますが、対話的に質問できる ChatGPT は、日頃から活用できるツールとなるでしょう。(もちろん回答が正しいかどうかの検証は必要でしょうが。)

今日のまとめ

  • Ideogram 1.0 が登場。新しい画風を持つ、DALL-E の強力なライバル。イラスト中のテキスト生成、プロンプトの正確な解釈、アスペクト比の多様さが強み。
  • 人間が画像生成 AI を使いこなすには、(現在のところ)英語の豊富な語彙、特に形容詞の使い分けが重要な鍵となる。しかし、ChatGPT のような大規模言語モデル AI を活用すれば、英語に弱い日本人でも、その問題を十分に回避できる。
  • ChatGPT を使うと、似たような英単語の細かいニュアンスの違いや、語源を説明してくれる。シソーラスのように利用できる。

画像生成 AI は、英語学習者の強い味方なのかも

もう一つ。Ideogram と ChatGPT と触っていて考えたことは、これらが英語学習者の極めて強い味方になりそうだということです。

無味乾燥な英語教材ではすぐに飽きてしまうでしょうが、Ideogram で多くの人が苦心して入力しているプロンプト、また、AI が生成した Magic Prompt を読んでいると、「そうなのか、このような画像の生成には、このようなボキャブラリが使えるのか」と、非常に勉強になります。

これが大学受験のスコアアップに繋がるかどうかは分かりませんが、われわれの世代、英語教材といえば Japan Times、アルクの TOEIC マラソンしかなかったような人間にとっては、外国語教材としても有効な YouTube に加えて、溜息が出るような無償教材が次から次へと登場する時代になったということでしょう。

お問い合わせはお気軽に!

お問い合わせを頂いた後、継続して営業活動をしたり、ニュースレター等をお送りしたりすることはございません。
御返答は 24時間以内(営業時間中)とさせて頂いております。もし返答が届かない場合、何らかの事情でメールが不達となっている可能性がございます。大変お手数ですが、別のメールアドレス等で督促頂けますと幸いです。

コメントを残す