そういう、モデルなんです。

ビジネスモデル、3Dモデル、設計図、模型などの現状と動向を考察、関連書籍の紹介

情報発信における生成AIの利用

生成AIを活用することで、それなりの見栄えの記事なり、プレゼンテーションなりを素人でも簡単に制作・発信できるようになった。

誰でも簡単に使える検索型AI

最近流行りの検索型AIのGensparkは、検索ついでに副産物としてまとめ記事まで制作・発信もする。その少し前に流行ったPerplexityも出典を明確にした上で結果をまとめ、そのまとめた内容をベースにして対話的に派生コンテンツを制作できる。

Perplexity : このような整理・作表は10秒で終わる作業

Googleもアカウントでログインして疑問形で質問すれば、検索結果の一覧の前、冒頭部分で同様のまとめを返すようになった。

Google : 冒頭部分で同様のまとめを返す

文章ベースの汎用型の生成AI (LLM) の信頼度は向上し、ソースが明示されてファクトチェックの手番は減った。ネットで情報が入手できる分野では実用レベルに達している。

在来の情報サービス業(新聞社・出版者など)においても、RAG(検索拡張生成)の環境構築が簡単になったので、無断利用を認めていない自社IPの情報コンテンツを対象とした生成AIサービスを構築している。ネット上の情報を混ぜないことが逆に付加価値となっている。

特化型AI

特化型の生成AIも増えている。

プロンプト投入と出力結果や情報源(URL)のコピペの繰り返しだけで、それらを起点にスライドやらマインドマップ(ロジックツリー)や比較表やらを易々と生成できる。

スライド生成AI : Gamma、イルシルなど マインドマップ:Mapify、Miro など

アイデア出しのための連想検索がとても簡単になった。


www.youtube.com

クラウドサービス型の生成AIでは、他の利用者が投入したプロンプトや結果もギャラリーで一覧できる。

投入するプロンプトそれ自体も、汎用型の生成AIに自動生成させることで、プロンプトエンジニアリングの手間も減った。

このため検索・調査・収集・整理といった他者の情報を引き出して流用するユースケースでは、一般の生活者は、もはや大手AIベンダーの既成プラットフォームサービスやコミュニティを利用する単なる消費者となった。

情報発信における生成AI

一方で、自身の情報を収集・整理して外部発信するユースケースでは、発信元は自分自身(個人にせよ法人にせよ)で一つだが、発信先のコンテンツプラットフォームは数多くあり、発信者はしばしば複数のプラットフォームに発信(投稿)している。

ファーストハンドの一次情報をベースにした自作コンテンツであれば、気兼ねなく複数プラットフォームに多重に投稿できる。それを各プラットフォームに再利用されたり学習されたりすることは避けられないが、元の自作コンテンツは制作者に帰属する扱いが今では主流である。

自作ではないコンテンツの再利用(引用・流用)についても、個人・教育利用はもちろん、商用利用も可とされる場合が増えている。

文章以外の素材は、従来は制作ツール付属のライブラリ(アイコン、ストックフォトなど)をツールとセットで利用していたが、貧弱な検索機能を使ってその中から探し出す手間よりも、必要な時に生成AIで作成してしまったほうが楽な場合も増えてきた。


www.youtube.com

自動的に透かしが入ったり、クレジット表記(概要や作品へのサービス名の明記など)を求められたりはするが選択肢は増えている。課金すればその必要もない。

情報発信(生産)は利活用(消費)と比べて、桁違いに大きな工数・時数を要するため、コンテンツ管理/制作ワークフローにおける生成AI活用や省力化のツールや技法は、いぜん注目されている。

画像生成AI

厳密な論理性・正確性を求めず、雰囲気を伝えるユースケースでは使い物になる。


www.youtube.com

しかし複数の生成画像をまたいだ場合の一貫性が無いため、長いストーリー(脚本・台本・絵コンテ)の中で、本来なら、容姿・服装・髪型など一切合切が同一の見た目であるべき登場人物・地物を、同一に出力することはできない。

画像の一部分を少しずつ書き換える昔ながらのパラパラ漫画のような手法で、同一の構図・パースで動きの少ないシーンであれば、数コマのアニメもどきを作ることはできる。それを自動化して2~3秒程度の少しだけの動きを付けられる画像生成AIサービスもある。

特定の人物なり作風なりの画像のみを集中的に追加学習させたモデル (Lora)を適用すれば、人物の見た目を近づけることはできるが、よくよく見ると、コマごとにどこかが違っていたりする。

ストーリーボードを軸にして、まとめて複数枚の画像を生成できるタイプのサービス (Mootion) を一昨日試用してみたが、与えるプロンプトが短文(男女2名の掛け合いのセリフのみ)だと、ネタ動画としか思えないものが生まれたりする。


www.youtube.com

しかし漫画のように、ストーリーを軸に一貫した絵とセリフ、あるいは動画を提示することは根強いニーズなので、こういうサービスが改善されたり、より良いサービスが登場するのはもはや時間の問題とは感じた。

この記事の最後の動画に含まれる静止画のカットやインサートは、全て画像生成AIで生成したものとなっている。

動画生成AI

動画生成AIも Luma、Domo、Sora などいろいろと登場してきた。

一昨日 Sora の混雑が緩和されてアカウント作成ができるようになっていたが、残念ながら有料プランのみだったので、代わりに LumMachine Machine を試用した。


www.youtube.com

だいたい5秒くらいの尺だが、静止画よりは表現力は上がる。

この記事の最後の動画のうち、

  • 右上に LUMA と透かしが入っている動画のインサートは生成AIによるもの
  • 透かしが入っていないインサートは動画制作ツール PowerDirector から利用できる(できた)ストックフォトに由来する実写
  • スクリーンショットがスクロールしているものは Snipping Tool で撮ったスクショを PowerDirector でパンする加工をしたもの

となっている。

よく見ると生成AIの動画は色々おかしいが、インサートでは5秒を2秒に時間圧縮するので、すぐには気づかない。

あらゆる生成AIを併用して動画制作

プレゼンテーションや記事の文章をインプットとして、あらゆる種類の生成AIを併用して動画を作成した。

  1. 汎用の生成AIである Gemini に、男女掛け合いのトークスクリプトを自動生成させる
  2. トークスクリプトをもとに音声合成AIである Amazon Polly に男女音声を生成させる
  3. 静止画インサートは、画像生成AIのFooocusで生成させる(Inpaint で疑似アニメ化)
  4. 動画インサートは、動画生成AIのLUMAに生成させる
  5. 静止画/動画のプロンプトは、Geminiに推敲させる


www.youtube.com

男女掛け合いのトークスクリプトは10分の尺を目指していたが、3分強の尺までの動画制作に丸一日かかったので、生産性を上げる方法を一旦検討してから10分以上に挑戦する。

音声合成AI

品揃えは豊富で、サービスやツールに同梱されるようにもなってきた。Amazon Polly で別途月額課金しているがスタバ代1回分より安い。


www.youtube.com

3DアバターAI

詳細度(LOD)の低いモブ品質のものであれば自動生成できる。詳細度(LOD)の高い高品質のものは、今のところ制作ツールを利用して作るかマーケットで購入する必要がある。

人物モデルの詳細度 LOD を勝手に定義


www.youtube.com


www.youtube.com

 

※上記動画では使用していない。人物画像を画像生成している。

環境テクスチャAI

自分を中心とした全周の画像生成をプロンプト一発で生成する。画像生成AIのアウトペイント(生成済み画像の外側を追加生成する手法)より手番短く、一貫性のある画像を入手できる。


www.youtube.com

※上記動画では使用していない。風景(部屋内)画像を画像生成している。

作詞作曲AI

作曲のみのインストはもちろん、作詞させることもできる。

 


www.youtube.com

 

※上記動画では使用していない。制作ツールに付属のBGM音源を使用している。