aiで焼き芋を食べている三世代の画像生成をしてみた!aiで画像生成するやり方も

AI画像生成は、想像通りの画像ができないことが多いという問題に直面します。例えば、「焼き芋を食べている人物」を生成する際、シンプルに指示してもイメージ通りにはいきません。そんな悩みを解決するのが、プロンプトを細かく設定する方法です。まずは食べ物の画像を生成し、その後人物の年齢やシチュエーションを段階的に調整することで、より正確な結果に近づけます。この記事では、Midjourneyを使い、異なる年齢層の人物が焼き芋を食べるシーンをどのように生成したかを紹介します。

写真撮影の進化

aiで焼き芋を食べている三世代を画像生成-写真フィルムイメージ

写真撮影…最近では画像撮影、作成となってきていますね。その昔…と言っても20年くらい前は、フィルムを使って撮影をしてその写真をスキャンして画像化していたこともあったような…その後にデジタルカメラ(デジカメ)がメーカーから出てきて、デジカメシフトをしていったような…

aiで焼き芋を食べている三世代を画像生成-初期デジカメ

でもデジカメが出て来たばかりの頃は、今と違い画質も「ん?大丈夫かぁ?」というレベル。この頃はまだ、ガラケー携帯と言われる携帯電話だったこともあり、ガラケー携帯で画像を撮影してということは全く考えてませんでした。ガラケー携帯で撮影したものは、友人や知人と共有したりする感じでどちらかというとプライベートで使用するものという感じだったと思います。

aiで焼き芋を食べている三世代を画像生成-ガラケー・スマホカメラの歴史

その後に、スマートフォン(スマホ)が出てきて、カメラの画素数も飛躍的に向上し、今のような感じになったと思います。凹凸が少なく、のっぺりした感じになるスマホでの撮影も最近では、一眼レフ並みの撮影も出来たりとカメラの性能も飛躍的に上がっていっていると思います。

aiで焼き芋を食べている三世代を画像生成-スマホで写真撮影

スマホでちょっとした商品撮影や記事用イメージの撮影も十分に出来るくらいになってきているはずです。そこで一つ、疑問が生じるのですが、撮影に使用する焼き芋やさつまいもは前回、画像生成aiを使用して、どんな感じになるか?ということを実践してみましたが、被写体と言いますか?撮影モデルもこちらが思うようなカットで画像生成できるか?今回は、撮影モデルを画像生成aiで作ってみました。

AIによる画像生成の挑戦

出典:Midjourney

今回も前回同様、使用したのはMidjourney(ミッドジャーニー)。Midjourney(ミッドジャーニー)の説明は前回もしたのですが簡潔に。テキストから画像を生成してくれる高度なAIでDiscordというアプリ上でチャット形式で操作が出来ます。最新のMidjourneyでは日本語のプロンプトで作成は可能になりました。しかしながら画像の精度やプロンプトの理解度は英語のほうが高い場合もあります。(日本語でもプロンプトによりますが画像生成は可能です)Midjourney(ミッドジャーニー)は、商用利用(画像販売等)は認められています(有料版)ので画像販売を行うのであればMidjourney(ミッドジャーニー)は、上手にプロンプトが出来ればかなりの精度で画像生成できますのでオススメです。

焼き芋を食べる3世代の画像生成

今回は、焼き芋を食べている「子供」、「高校生」、「おばあさん」という感じの全く異なる年齢層の焼き芋を食べている被写体(被写体というのか?不明ですが)を画像生成してみました。ここで注意点があるのですが、いきなり「焼き芋を食べている〇〇」という感じのプロンプトを入れると、こちらが思い描いたものは数回、試してみましたが出ません。

全く異なる感じの画像が生成されてきます。何かを食べている?何をしている?というのは、まずはその何か?を最初に画像生成していくようにすると作業がスムーズに進むと思われます。

aiで焼き芋を食べている三世代を画像生成-焼き芋イメージ

今回は、焼き芋なので、まずは焼き芋を画像生成していきます。その後に、Midjourney(ミッドジャーニー)では「IW」という「元の画像をどれだけ使用するか?」というプロンプトで調整をしていきます。そして、いよいよ人物の画像生成に入ります。

焼き芋を食べている子供の画像生成

aiで焼き芋を食べている三世代を画像生成-焼き芋と子供1

最初は「子供」の画像生成していきますが、12歳くらいで日本の男の子が先程、生成した日本の焼き芋(Japanese sweet potato)をダイニングで食べている画像というプロンプトでラリーをしていきます。ここで注意が必要なのは「小さい(small)」というプロンプトを入れないとアメリカサイズのかなり大きなさつまいもになってしまう点です。その部分を注意しながら生成されてきた画像はこんな感じ。

aiで焼き芋を食べている三世代を画像生成-焼き芋と子供2

家のダイニングとしたのだけど…なんだか居酒屋みたいな背景になってしまってますね。それと…家と言いますか?室内だと思うのですが、ダウンコートを着ている感じになってしまってます。まあ、焼き芋=冬だからなのかもしれませんが…逆に室内ではなく、公園とか?キャンプ場とか?そういう屋外にしたほうがよりスムーズに画像生成できるかもしれません。本来なら引き続き、プロンプトのラリーを続けるのですが、今回は三名を画像生成していくのでここまでで次へ行きます。

焼き芋を食べている高校生の画像生成

次は「焼き芋を食べている高校生」を画像生成してみました。ここで高校生にした理由は、単に年齢だけのプロンプトだとラリーのやり取りが多くなる気がしたので、「制服」という分かりやすい装いで、高校生にしてみました。

aiで焼き芋を食べている三世代を画像生成-アニメぽくなるので要注意

それと容姿について細かくプロンプトで指示をしないとアニメのような感じになってしまうので、こちらも分かりやすい「キレイ」、「可愛い」というプロンプトで女子高校生にしてみました。背景も色々とプロンプトを試してみたのですが、先程の子供のような感じで「??」となってしまうものが多かったので、さすがに焼き芋を食べ歩いたりはしないだろうな?と思いましたが「渋谷(東京都渋谷区)のストリート」というプロンプトを追加しました。プロンプトのラリーを繰り返して行くうちに思ったのは「焼き芋と人間のバランス」が上手に画像生成する上で一番大切だという点です。

aiで焼き芋を食べている三世代を画像生成-背景は渋谷に

女性もいきなり高校生という感じのプロンプトを入れて行く(焼き芋と女子高生)と昭和ロマンな感じになってしまい、古いと言いますか?今の感じではないような画像が生成されてきてしまいます。人を画像生成する場合(今回は女性)、近い年齢で画像生成を進め、徐々に最終的に画像生成したい年齢に近付けて行く方が、少し回り道かもしれませんけど、最終的に自分が思った画像が生成されてくるように思えました。

aiで焼き芋を食べている三世代を画像生成-少し年齢が上

仕上げとしては、年齢が近づいてきたら着用している洋服を細かく指定していく感じになります。

aiで焼き芋を食べている三世代を画像生成-焼き芋と高校生

焼き芋を食べているおばあさんの画像生成

aiで焼き芋を食べている三世代を画像生成-焼き芋とおばあちゃん1

最後は「焼き芋を食べているおばあさん」の画像生成をしてみました。今回の「子供」、「高校生」、「おばあさん」の中で、一番苦労したのが「焼き芋を食べているおばあさん」でした。先程も書きましたが人間を画像生成する際は、最終ゴール(目指すところの年齢)の年齢に近い年齢をプロンプトに入れて画像生成をして行きましたが…かなりおばあさんの感じになってしまいまして…この最初の年齢でのラリーが想像以上に多かったです。年齢の調整を間違えると…こんな感じの女性になってしまいます。ここも着物ですけど…。

aiで焼き芋を食べている三世代を画像生成-年齢を調整間違い参考例

イメージしたのはよく田舎で見かけるような割烹着を着用している優しそうなおばあさんだったのですが、全て着物…着物…着物という感じになってしまいました。割烹着という日本独特の表現は難しく、エプロンの種類としてトラディショナルというワードを追加してしまったからかと思います。このトラディショナルなエプロン=着物という感じで認識されているのではないかと思います。生成された画像…少し怖いですよね?。

aiで焼き芋を食べている三世代を画像生成-焼き芋とおばあちゃん2

人物のプロンプトのラリーをやり過ぎたからかもしれませんが、焼き芋がどちらかというとふかし芋のような感じになってしまいました。失敗してしまった画像もつけておきますが、背景も自宅というよりは、山小屋のような感じになってしまい、不思議な感じの画像になってしまいました。

画像生成時の注意点とコツ

aiで画像生成する場合、食べるもの、今回で言えば「焼き芋」ですが、この焼き芋と人物のバランスが一番大切だという事。そして、少し回り道になるかもしれませんが、いきなり求めている人物の年齢をプロンプトで入れるよりは、最終ゴールに近い年齢を入れて徐々に近づけて行った方が、こちらが思っていた年齢、画像生成をしたい年齢になるはずです。

aiで焼き芋を食べている三世代を画像生成のコツ1

aiで焼き芋を食べている三世代を画像生成のコツ2

aiで焼き芋を食べている三世代を画像生成のコツ3

時間をかけ、じっくりと何度もプロンプトのラリーを繰り返すことで思っていた画像が生成されてくるはずです。因みにMidjourney(ミッドジャーニー)は撮影するカメラのレンズタイプも選択が出来るので人物が完成した場合、カメラ、カメラのレンズタイプを指定すると思っていた通りの画像に仕上がります。カメラの知識もある程度、必要になってくると思いますが…。少しの時間だけでもここまでの完成度の高い画像が生成されてくるので、許す限り時間をかけると凄い画像が生成されてくるはずです。

まとめ

AI画像生成は、特に「焼き芋を食べる人物」のような具体的なシーンを思い通りに作るのは難しいと感じるかもしれません。しかし、プロンプトを段階的に細かく設定することで、精度の高い画像を作成できます。例えば、まず食べ物の画像を生成し、その後に人物の年齢や背景を調整するなど、プロセスを分けて進めることが鍵です。AI生成の結果を改善するためには、プロンプトの試行錯誤が不可欠ですが、根気強くラリーを続ければ、理想の画像に近づけられます。最終的に、正しいプロンプト設定と画像生成AIの機能を理解することで、目的に合った、思い描いた画像生成が可能になるはずです。カメラやカメラのレンズタイプも指定できることからAIで画像生成をした人物や生成されてきた食べているカットをプロのカメラマンのように撮影した画像のように作れるかもしれません。