高品質【MV作成】なら、生き生きしたリップシンクのDomoAI – GoronyanのDTMマインド～音楽と日常のこと

Share on Tumblr

Pocket

最近私はAI画像生成、AI動画生成にはまっていまして、いろんなプラットホームを使ってきましたが、今回初めてDomoAIを使いました。

理由はリップシンクでキャラクターが生き生きしている、という広告を見たり、私が毎週見ている、あずきチャンネルでDomoAIを推しているということもあり、今回使わせていただきました。

金銭的な余裕がないため、標準的なスタンダードプランで使用しました。

AIアバター機能、では、歌入りの音楽、もしくは会話の声と、キャラクター画像を入力させることにより、キャラクターに歌わせたり話させたりさせることが可能です。

私はこれまで、GeminiやChatGPTなどを使ってきましたが、チャットで作業を進めていくよりも、このDomoAIのような、作成された画像、もしくは動画について、次にどんな編集をさせるのか、という指示をさせる方が、私には使い勝手がいいと感じました。

画像を作成させたら、次に画像を編集する、画像から動画にさせる、など生成されたものに対して直接指示をさせることができるところが便利でしたね。

また画像生成、画像から動画、動画から動画、テキストから動画などでは、リラックスモードが選択できます。

クイックモードとリラックスモードがありまして、クイックモードでは優先的に処理されますが、クレジットを消費します。

リラックスモードではクイックモードより待たされますが、クレジット消費がありません。つまり無制限に動画を作成させることができます。

私のように、コスパを最優先に考える人にとってはこの上ない機能ですね。ただ、画像をリップシンクさせるAIアバター機能では現段階ではリラックスモードはなく、クイックモードだけになります。

冒頭の「ちっぽけなMyself」は１０年ほど前の作品になりますが、それを今回AI動画生成にて作成しました。DomoAIを使っています。

では、具体的にこの動画を作るにあたり、どのような手順を踏んで作ったのかについて、解説していきますね。

ボーカルの画像生成

今回の曲はアイドルユニット女性4人組ということで、DomoAIの画像生成で4人組アイドルについて、何回か生成させました。

私はそれぞれの人の個性があって、見分けがはっきりつくように、というプロンプトを作ってから作成させると、いい感じの4人の組み合わせができました。その中で、一番右の人だけは、最初あまりにも不自然な顔でしたので、修正させています。

左からChiaki、Nami、Tsukasa、Meikoと名付けました。

こうやって作ると、なんだか秋本康先生になってアイドルをプロデュースしているような気分になります。オーディション合格の4人になります。（笑）

後でユニット名をつけましたが、「君の中のアイドル」という名前にしました。ふと浮かんだ感じです。

ボーカルの音声部分を20秒以内で書き出し

DomoAIのスタンダードプランですと、AIアバター機能で、5秒、10秒、20秒のリップシンクが可能となります。

プロプランですと最大60秒までいけるようです。

そのため、「ちっぽけなMyself」という私のオリジナル曲のポーカル部分を20秒以内で書き出しました。

書き出すときに、「ちっぽけなMyself1ビルの谷間に落ちてく夕陽」というように、ファイル名として、題名の後に番号を振り、歌う歌詞も書いておきました。手間なようですが、後で編集のときに、とてもわかりやすくてこの方法はいいと思います。

一曲分まるまる歌詞部分を書き出しました。秒数によりクレジット消費は変わりますので、コスパと相談して割り振りを決めました。

私のこの曲の場合、もともとこれは生身の人間のボーカルになるのですが、当時、4人の違う歌の感じの人が歌うと仮定して、それこそ物真似芸人のように、器用に4種類歌い分けてもらいました。

編集するときにこの部分は誰の声を使うなど選択して当時楽曲を制作しました。

そのため、歌の感じが変わる部分で人が入れ替わる感じです。サビ部分などは全員で歌っています。

上記音声は、Bメロ部分になります。ファイル名は

「ちっぽけなMyself3ああ明日は卒業式だというのに」になります。

それぞれの歌の部分で、どんな画像がいいか考える

歌部分でどの歌の部分が誰になるのか、考えた後で、それぞれの歌詞に合う情景を考えました。

基本的にはその歌詞で描かれている情景に合いそうな背景と、そしてボーカルの人物を合成させる形で、DomoAIの中にあるNanoBananaで画像を編集させました。

プロンプトでは、ボーカルの画像だけ選択した後で、

「日本のありふれた感じの街中の景色で、朝の情景の中を、この人物が歩く動画を作ってください」というように指示を出しました。

AIアバター機能にて、キャラクターにリップシンクさせる

画像とボーカルの組み合わせが揃いましたら、次は画像にリップシンクさせます。

AIアバター機能というのがDomoAIにはありまして、画像と音声を入力することにより、画像のキャラクターに歌わせることができます。歌だけでなく、話させることもできます。

歌は、ボーカルだけのデータでなくても音楽つきでもしっかりリップシンクさせることができました。

一人だけでなく、4人ぐらいなら、破綻なくリップシンクさせることができるようです。こちらは4人の画像ですが、こちらから特に指示したわけではありませんでしたが、学校の雰囲気から、途中で歌でなく、顔を見合わせたりして笑うような動作を入れてくれています。

イントロや間奏など歌以外の部分に使うための動画を作成

こちらは一番と二番の間の間奏部分で使用しました動画になります。一番が卒業式前日の夕方の景色、そして二番が卒業式の朝の景色というわけで、間奏部分は夕方から夜になるという描写をさせました。

プロンプト

「この人物が自然の中のベンチに座り、夕暮れから夜の星空になるまでをタイムラプス風の動画にしてください。ただし、人物はタイムラプス風ではなく自然な動きにしてください」

このあたり、この歌にどんな情景が合うのか、いろいろ考える作業はとても面白いものです。

動画素材と音楽とを編集する

私は動画編集はPower Directerを使っていますが、DomoAIでリップシンク動画やイメージ動画の素材を作りましたら、それを編集でつないでいきます。音としては、楽曲のオーディオデータだけ使い、動画の音声はミュートさせています。

編集するとき、動画素材にも波形の波が表示されていますので、オーディオデータと波形を合わせることにより合わせていきました。動画素材は短すぎると編集でつなぎにくいので、最初に少し長めで作っておく方が編集しやすいです。

編集の最後に、タイトルやクレジットなどを動画に入れて、全体の動画を作って完成となります。

今回はDomoAIについて、大きくピックアップさせていただきました。

実は、DomoAIのクリエイティブパートナープログラム、というところに、申請をしまして、なんと承認されました。

月々1万円近く支払う必要のあるプロプランが、一か月の間現状の状態で利用可能となりました。

今回の「ちっぽけなMyself」の他、他のプラットホームを使用して作成した「ワイングラス」「灯（ともしび）」の動画を提出した結果です。動画編集は10年以上していますので、音楽とともに少しは認められた形となりました。

DomoAIの使用は3月初め頃から始めていますが、クレジットを消費したため、これ以上は金銭的余裕がなくできないなと思っていた矢先だったので、本当に嬉しかったです。

ちなみに、まだ未確定となっていますが、このブログのアフィリエイトにて、このブログとして2回目の購入がありました。

私のことを助けようと思われた方は、広告を見て、何かしら買い物してくれると助けになります、と前回のブログで書いたばかりでしたので、本当に助けようと思われた方がいらっしゃったのかもしれません。

本当にありがとうございます。

Recent Posts

Recent Comments

Archives

Categories

ボーカルの画像生成

ボーカルの音声部分を20秒以内で書き出し

それぞれの歌の部分で、どんな画像がいいか考える

AIアバター機能にて、キャラクターにリップシンクさせる

イントロや間奏など歌以外の部分に使うための動画を作成

動画素材と音楽とを編集する

作成者: TheGoronyan25

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル