ミッドジャーニーが超難しい|できないことだらけで結局ほぼ手作業になった話

AI画像生成ツールって使ったことありますか?

最近はMidjourney(ミッドジャーニー)をはじめ、AIを使ってサクッと画像を作れるサービスが増えてきましたよね。

「お手軽に高品質のイラストが作れちゃう!」

なんてウワサを聞くと、つい期待してしまうものです。

ぼくも先日、広告用バナーの制作を依頼されたときに「よーし、Midjourneyで一発生成してみよう!」と思ったんです。

でも、やってみたら信じられないくらい大変でした…。

最終的にはPhotoshopやCanvaでほぼ手作業になり、AIの力を活用できたのは「人物の生成」くらいだったんです。

今回は、そのときに体験したちょっと苦労した話をシェアしたいと思います。

あなたは絶対この結末を回避してください…!

目次

ミッドジャーニーを使おうと思った背景

「書斎で昼寝する猫。やさしい水彩画のようなタッチで」

そもそも、どうしてAI画像生成を使おうと思ったのか。

理由はシンプルで、

「すでにあるイメージ画像と同じテイストの新しいカットが必要だった」

からです。

クライアントさんから「この写真やイラストの雰囲気に近いものを作ってください」と依頼されたんですね。

バナー広告用なので、

  • 人の目を引くような鮮やかな印象で
  • でも全体的にはやわらかい絵本っぽいタッチ

そんなとき、ぼくは思ったわけです。

もしかしてMidjourneyに画像をアップして、そこから類似スタイルを生成してもらえば早いんじゃない?

…と。

AIなら一瞬で大量のバリエーションを吐き出してくれるし、クライアントさんも選び放題かも…!

これはラクできるんじゃない? なんて甘い期待があったんですね。

これが地獄のはじまりとも知らず…。

リアルな失敗談でございます

それで早速、元になる画像をMidjourneyに読み込ませて、「こんな感じで!」とプロンプトを入れて指示を出してみました。

するとどうでしょう。

出てきた画像は、

たしかに“それっぽい雰囲気”
でも形状や色味が微妙に崩れていたり
文字が謎の記号っぽくなっていたり
人の顔が笑えるくらいに歪んでたり
全然別テイストになったり…

で、まともに使えるものがほぼなかったんです。

特に絵本タッチのラフなテイストって、AIが苦手とする領域なんだろうか。

「絵本のような優しいタッチ」「10歳の子どもが書いたような絵」とか色々試しては見るものの、

こういう感じにしてください

クライアントさんの要望通りのタッチを完全再現することがなかなかに難しかったんです。

何回かガチャ回せば行けるやろ!

と淡い期待を胸に何十枚も生成してみたんですが、「95%同じ」でも、やっぱり100%にはならない。

びみょ~~~に、違和感が残るわけです。

そして文字。これが一番しんどい。

これはみなさんもご存じかもしれませんが、日本語をAIに描かせるとほぼ失敗します。

英語ならまだしも、「謎の象形文字みたいなもの」を生成してくるんですよね。(これはミッドジャーニーにかぎらず、どれも同じ印象があります)

文字どころか、一緒に写っている看板やポスターの部分までぐちゃぐちゃに崩れたりして到底使えません。

不気味の谷みたいな文字だけが量産されていく…。

ミッドジャーニーでできないこと

今回の案件は、クライアントさんから

この元画像をベースに、ほぼ同じ構図と色味で

とハッキリ指定があったんです。

この写真の上に文字を載せたいから、背景はこのままで人物だけ変えて

というオーダーだったりしました。

そうなると、AIに丸投げするのは厳しいな…と痛感しました。

なぜなら、

AIが生成した画像って、いくら“参考画像”を投げ込んだとしても、形状や色合いをそのまま再現してくれるわけじゃない

からです。

これからミッドジャーニーを使いこなしていけば、プロンプトで出せるようになるのかな…??

何度やっても少しずつ異なるニュアンスになって、「求めているピンポイントの形」に落とし込むのが至難の業なんですよね。

しかもクライアントさんからは

「色はもっと淡い感じで、でも雰囲気は変えないで」
「ここだけ文字スペース空けといて」

なんて要望が細かく入る。

だから結局、最終的にはPhotoshopやCanvaを使って、手動で色調整したり、背景を切り貼りしたりしちゃうんです。

絵の腕前なんて画伯級の僕でも、手作業の方が確実に早いし、着実に進んでいる実感や手応えがあったんですよ。

「絵本タッチ」はAIにとって鬼門!?

今回の依頼で、個人的にとくに苦労したのが「絵本っぽいタッチ」

例えばこういうの。やさしい線画で、ちょっと水彩っぽい淡い彩色がされているイメージ

例えばこういう雰囲気の

だったんですけど、そのまんまMidjourneyでsrefやcrefを指示してもうまくいかなくて、

「10歳の女の子が書いたような絵」
絵本のような優しいタッチだからね…
なんでおばあちゃんが出てくるのよ

紆余曲折二段階右折くらいして、何時間もAIと格闘していたわけです。

ずっと「ちーがーうだーろーっ! 違うだろーォッ!!って独り言言ってました。ハゲそう

もちろん、プロンプトの書き方や生成パラメータを工夫すれば、ある程度は近づいてきます。

でも

「絵本っぽさを意識してほしい」

「ラフタッチの下描き風に仕上げて」

なんて抽象的な指示は、まだAIには正確に伝わりきらない感じがありますね。

言葉で指定しても「ラフな感じのイラスト」で、

ラフとは?そもそもの定義を教えて言語化して具体的に

なんかいい感じってことだよ、わかる?(プロンプトペタッ)

なるほど!じゃあこれで完璧デス!

チガーーーウ!(n回目)

どこまで崩していいのか、AIにとっては難しいみたいです。

だから結局、AIが出してきた画像を見ては「うーん、もうちょっと輪郭ぼかしたいんだよな…」とか「色ムラがほしいんだけど」と思い、

気づいたらフォトショで描いてましたよね、自分で。

線をトレースしてみたり、背景のグラデーションを手で描き足したり。

こっちの方が早いわ。。。

ミッドジャーニーでサクッとできるはずだったので、息子のお迎えに遅れてしまったのはここだけの話です。

AIは日本語が苦手!?

今回のバナーには日本語のキャッチコピーやタイトルを載せる必要がありました。

しかも、写真やイラストの一部にも日本語の看板やポスターが描かれている…。

鬼門キター!

ミッドジャーニーに「この日本語をそのまま再現して」なんて言っても、ほとんど成功した試しがありません。

英語ならまだ形としてはそれっぽくなることが多いですが、日本語だとなにか変な記号の羅列になったり、文字が混ざったり、逆さまに配置されたりするんですよ。

そのため

「文字パートは全部こっちが用意して、あとでレイヤー合成する」

という流れが必須になりました。

「そんなら最初から自分で入れたほうがいいじゃん」って話ですよね。

もちろん、Midjourneyに日本語でプロンプトを書いても大丈夫だと言われてはいるものの、実際には英語のほうが反応が良いことが多いです。

でも、たまに英語だって崩れますから、文字要素に関しては2025年3月の時点だと「期待するだけ無駄!」と割り切るのが無難かもしれません。

AIを使いこなすのは想像以上に難しい

もうひとつ大きな壁だったのが、「建物」や「会場のレイアウト」などを正確に再現すること。

「展示会の賑わう様子」を写真で提供してもらって、「これと似たような感じで描いてください」と指示してみたんです。

展示会のにぎわいって言っても色々ありすぎる…

それが見事に失敗しまして。

AIは確かに、大勢の人が集まるシーンをつくり出すのは得意そうに見えます。

ただ、いざ上がってきた画像を見てみると、「同じ顔をした人間が大量発生してるじゃん!」とか「みんな同じ服を着てる」とか、一度そのループにハマるとなかなか抜け出せなくなるわけです。

建物の形が曲がっていたり、入り口が3つくらい出現していたり。

AIはその絵に「意図」や「意味」を持たないので、しょうがないといえばしょうがない…。

「ChatGPTに画像を読み込ませて、建物の構造を言語化し、それをMidjourneyに指示すればワンチャン?」

これが続くと徐々にメンタルが疲弊してくる

と試してみましたが、結果は↑です。

俺もうキミがわかんないよ…

細かい建築要素を再現したいときには、

結局「自分で描いちゃった方が早い」

というのが正直な感想です。

建築パースを専門にやってるAIとかもあるけど、微調整が必要ならやっぱり人の手がいるな…と痛感しました。

結局、どこまでAIが役立ったのか?

なんだかここまで「AIダメじゃん」みたいな話ばっかりしてきましたけど、もちろん役立ったシーンもあります。

たとえば人物だけをデザインする場合。

「こんな髪型で、こんな服装の女性が笑顔で微笑んでるイラストがほしい」みたいなとき、Midjourneyだとサクッと数パターン出してくれます。

有能オブ有能であることは間違いない

Midjourneyだとサクッと数パターン出してくれます。

その中から「お、これいいな」というのを選んで、手動で色調整したり、背景と組み合わせたりするのは確かに楽。

今回も「メインビジュアルとして使う人のイラスト」だけはMidjourneyで生成できたんです。

ただし、生成後に顔が少し崩れていたり、服のシワがおかしかったりしたので、そこはPhotoshopでリタッチしました。

ベースとなるポーズやフォルムがあるだけで手描きの時間は大幅に削減できたので、効率化としては…多少プラスでしょうか(涙)

背景や小物、建物、テキストスペースなどの“全体的なレイアウト”をまとめるのは、まだAI一発ではキビシイですね。

ミッドジャーニーマスターに、俺はなる。

それでもAIを使う価値はあるのか?

ここまで読んだ方は「結局AI使わないほうがいいんじゃ?」と思うかもしれません。

ただ、ぼく自身は「AIを使う価値は確かにある」と思っています。

特に人物のイメージ出しや、ざっくりしたアイデア段階のサムネ作りにはめちゃくちゃ便利。一瞬で数十、数百パターンの案をビジュアル化してくれるのは、本当にすごいと思います。

問題は「細かい指定がある案件」に対して、AIがまだそこまで応えられないこと。

というか現実として、youtubeで映画まで作られてる時代なわけで、

僕がミッドジャーニーを使いこなすスキルがまだないのだろうなと思ってます。

絵本のようなラフタッチはやや苦手
日本語の文字はほぼ崩壊
建築物や背景の再現精度は低め…

といった弱点が見えると、どうしても大半は手作業での補完が必要になっちゃった。

ここからどうやって効率化していくか?

AIの進化が超速で展開されていますから、乗り遅れるわけにはいかないと強く思う今日このごろです。

まとめ:AIは頼れる相棒、でも“丸投げ”はできない

今回のMidjourney体験を通じて、一番感じたことは「AIはあくまで補佐役」ということです。

特に広告バナーのように、細かい要望や指定が多い場合は、AIに期待しすぎると痛い目をみるかもしれません。

結局、人の手で描いたり、PhotoshopやCanvaで加工したりする部分がかなり大きくなる。

だから難しいですよね。

手に職って、普遍の真理かもしれない。これはデザインだけじゃなく、建築や料理だってそれは変わらないと思います。


効率化できて時短になることも確かにある一方で、マスターするにはちょっと時間が必要になります。

これは知っておいてほしい。

最初から期待しすぎると、むずかしいから全然進みませんヨ

ということで、興味のある方は、ぜひAI画像生成にチャレンジしてみてください。

「困ったら最終的には自分で描くか、ツールで補うことになるよ」という覚悟を持って取り組むといいかもしれません。

それでは、今回はこのへんで。

AIとの格闘に疲れつつも、次はもっと面白い使い方を見つけてみたい!

そんなわくわく感を抱いて、ぼくはまたMidjourneyのガチャを回し続けるのでした。

この記事を書いた人

目次