生成AI動画の世界に、またひとつ革新的な波が押し寄せました。
中国のShengShu Technology(盛数科技)は、同社が開発するAI動画生成プラットフォーム「Vidu」の最新版である「Vidu Q2」を正式に発表しました(出典:PR Newswire, 2025年10月21日)。
新たに搭載された「Reference-to-Video」機能では、最大7枚のリファレンス画像を指定することで、人物の外見や衣装、背景構成を保ったまま動画を生成できます。
映像の一貫性と演出の自由度を両立させるこの技術は、RunwayやPikaなど欧米勢がリードしてきた“AI動画生成競争”に新たな流れを生み出す可能性があります。
本記事では、公式リリース内容をもとにVidu Q2の特徴や仕組み、そして市場への影響をわかりやすく解説します。
Vidu Q2とは──中国発の生成AI動画プラットフォーム
Viduは、ShengShu Technologyが開発したAI動画生成エンジンです。
Viduは2024年4月にリリースされ、1年間で200以上の国と地域に展開し、登録ユーザー3,000万人以上、生成動画4億本以上を達成したと報じられています。
他の生成AIツールが「テキスト入力 → 映像生成」という一方向的な仕組みであるのに対し、Viduはユーザーの意図をより細かく反映する映像エンジンとして進化してきました。
Vidu Q2では次の3つの点が主に強化されています。
| 改良ポイント | 内容 |
|---|---|
| 一貫性の強化 | 登場人物の外見・ポーズ・衣装が安定して維持される |
| 制御性の向上 | 複数のリファレンス画像を指定できる柔軟な生成制御 |
| 商用対応性 | API/MaaS化による法人展開を正式サポート |
「Reference-to-Video」──最大7枚の画像から動画を構築
Vidu Q2の中核をなすのが、この「Reference-to-Video」機能です。
AIは最大7枚の顔・ポーズ・シーン・小道具などのリファレンス画像を指定でき、それぞれのキャラクターや衣装、小道具、背景などを一貫させて動画を生成します。
これまでのAI動画生成では、次のような課題がありました。
キャラクターがフレームごとに変形・崩壊してしまう
ポーズや衣装が一定せず、映像の一貫性が失われる
背景が不自然に変化し、没入感が損なわれる
Vidu Q2ではAIが参照画像群を統合的に解析し、フレームごとに整合性を保ちながら動作を補完します。
その結果、まるで“同一人物が演じている映像”のような自然な仕上がりを実現しているのです。
メモ
💡 技術的には、『Multiple-Entity Consistency(多エンティティ一貫性)』機能として紹介されており、これによって複数の参照画像から得た各要素の外観が保たれます。
映画的な演出機能も搭載──AIによるカメラ制御
Vidu Q2は、単に動画を作るためのツールではありません。
Vidu Q2ではプロの映画撮影のように滑らかなパンやズーム、被写界深度(背景ぼかし)などの演出をAIが自動で行います。
このAIカメラ制御には、次のような特徴があります。
シーンの焦点を自動で判断し、被写体を滑らかに追尾
感情表現や視線誘導を意識したズーム演出
奥行き感を再現するAI被写界深度エフェクト
つまりVidu Q2では、「AIが監督のように演出判断を下す」ことが可能になっています。
テキストで「dramatic close-up」や「slow cinematic pan」といった指示を与えると、AIがその意図を理解し、最適なカメラワークを自動生成するのです。
API/MaaS展開で企業活用も視野に
Vidu Q2は一般ユーザー向けの動画生成だけでなく、企業向けAPIとしても提供されます。
これにより、さまざまな業界での応用が可能になります。
-
広告制作:商品画像からAIが自動で動画広告を生成
-
ゲーム開発:キャラクター立ち絵からカットシーン動画を生成
-
ECサイト:モデル写真から着用動画を生成し、購買意欲を高める
-
SNS運用:AIアバターが話す短尺動画を自動作成
さらに、Vidu Q2のリリースに合わせて、法人向けのMaaS(Model-as-a-Service)APIが世界中で利用可能になっています。
つまり、Vidu Q2は単なるアプリではなく、「AI動画生成エンジン」として他のサービスに組み込まれることも想定されているのです。
メモ
同社CEOは『我々の目標は創造性を置き換えることではなく、それを拡大することにある』と述べています。
Runway・Pika・Soraとの比較と今後の展望
世界のAI動画生成市場では、主要なプレイヤーとして次のような企業が存在します。
| プラットフォーム | 主な特徴 | 技術アプローチ |
|---|---|---|
| Runway(米) | Text-to-Videoの先駆者。映画制作でも採用 | テキスト主導型生成 |
| Pika(米) | SNS向け短尺動画に強み | 高速・軽量化重視 |
| Sora(OpenAI) | OpenAIのSora 2は2025年9月に公開され、これまで困難だった物理現象(オリンピックの跳躍やボード上での宙返りなど)を高精度に再現できるようになっています | 物理ベース生成 |
| Vidu Q2(中) | 画像参照型「Reference-to-Video」を採用 | Multi-reference synthesis |
欧米勢がテキスト入力型の生成技術を磨く一方で、Viduは画像参照型のアプローチを採用している点が大きな特徴です。
Vidu Q2は画像参照型のアプローチによって人物や衣装の一貫性を高める点が特徴です。一方、2025年に公開されたSora 2は物理シミュレーションに優れた能力を持っており、両者は異なる手法で先進的な動画生成を実現しています。
中国国内では、インフルエンサー向けにViduを使った自動動画生成サービスの展開も進んでおり、今後はアジアを中心に国際的な広がりを見せることが期待されています。
まとめ──映像生成AIの新たな方向性
Vidu Q2が発表した「Reference-to-Video」機能は、AI映像生成技術の新たな進化を象徴しています。
ポイント
キャラクターの安定した一貫性
AIによるカメラ演出の自動化
企業向けAPI展開による産業利用の拡大
これまで「生成AI=テキストから映像を作る」という構図が主流でしたが、公式発表では、Vidu Q2が高い一貫性とクリエイティブなコントロールを兼ね備えた新時代を切り開くと位置付けられています。
今後は、他のAI動画ツールも同様の技術を採用し始め、映像制作のプロセスそのものが変わっていく可能性があります。
映像を“作るAI”から、映像を“演出するAI”へ。
Vidu Q2は、その転換点を示す象徴的な存在と言えるでしょう。
こちらもCHECK
-
-
OpenAIが公開した新動画アプリ「Sora 2」とは──進化するAI動画体験の全貌
続きを見る