AIポッドキャスト生成
テキストスクリプトから複数アバターによる動画ポッドキャストを直接生成。音声クローン、アバターの割り当て、リアルな会話シーンを瞬時に再現します。
複数アバター会話自動同期サンドボックス
複数キャラクター台本スケジューラ&カメラ追従制御。複数人トークをインテリジェントに整理し、話者に自動フォーカスします。
发言トラックの自動分離
LLMが作成した対話原稿をスキャンし、タイムコード付きの発言セグメントに分解。タイムラインに沿って各アバターのオーディオトラックに割り振ります。
パラレルボイス合成
各アバターに対応するクローン音声またはTTSモデルを読み込み、バックエンドで合成処理を実行。ブレスや感情の乗ったブロードキャスト音声を合成します。
カメラアングルの自動切り替え
発話状態をリアルタイムで検知し、話しているアバターへのカメラ移動、バストアップ撮影、2人全体の撮影などを自動的に実行。事後の映像編集が不要になります。
デュアルチャネル複数話者対話ストリーム (A/B-roll Matrix)
Cuevoテックウィークリーへようこそ。本日は非常に革新的なテーマについて議論します。もしAI大規模モデルのパラメータ数を10倍に増やした場合、開発者が明示的に記述していない新しい能力(創発能力)が発現するのでしょうか?
それは確かに興味深い領域ですね。Google Brainチームが最近発表したデータによると、規模が閾値を超えると、モデルの算術・論理推論能力が指数関数的な飛躍を示し、追加の微調整すら不要になるとのことです。
これはシステム科学で「創発(Emergence)」と呼ばれる現象です。言い換えれば、複雑なシステムが中央の指令なしに、多数の局所ノードの単純な相互作用を通じて、自発的にマクロな秩序を生み出すのです。まるで生命そのものですね。
複数話者ボイスの割り当て
各話し手に異なる声クローンや音色モデルをバインド。共同司会者やゲスト対談など、複雑なポッドキャスト形式に完全対応。
会話スクリプトのストリーミング生成
大言語モデルと連動し、1つの話題から感情豊かな会話台本を自動作成。話し手の感情や抑揚も細かく制御可能です。
マルチ話者ポッドキャストワークベンチ主要パラメータ (Workbench Real Controls)
マルチ話者ポッドキャスト編集ワークベンチでは、AIによる台本生成から音声アバターのバインドまで一括設定が可能です:
複数キャラクター台本プランナー (Script Planner)
DeepSeek対話モデルを統合。トピックを入力するだけで、感情表現の指示タグ(例:[笑い]、[ため息])を含んだ多人数スクリプトを自動生成します。
話者ボイスの割り当て (Speaker Binding)
各アバターに個別のMimo声紋やMiniMaxエンジンをバインド可能。A氏は英語、B氏は日本語といった、多言語が入り混じるクロストークを容易に実現します。
会話感情・トーン調整スライダー (Tone Styles)
「ユーモア」、「厳格・学術」、「情熱的」など16種類の音声スタイルを用意。オーディオ断片ごとに感情パラメータを割り当て、人間らしい抑揚を再現します。
自動スイッチ運鏡制御 (Camera Control)
3Dクローズアップやカメラ切り替えアルゴリズムをデフォルトで搭載。映像制作の知識がなくとも、自動で編集済みの対談形式動画を出力します。
AI台本作成パネル - 話調スタイル
テーマごとに最適な対話の雰囲気を設定可能。Cuevoは16種類の話し方と感情に対応し、ネイティブのような自然な発話リズムを生成します。
AI ポッドキャストを制作する方法
トピックのプロンプトからマルチスピーカーのポッドキャスト音声まで 5 ステップ。クローン音声、AI スクリプト執筆、SRT エクスポートを 1 つのワークスペースで。
- Script EditorABAdd Dialogue Line1
スクリプトを企画または貼り付け
トピックを記述し、ラウンド数とスタイルを選んで AI 生成のダイアログをストリーミング —— もしくは各話者のセリフを手動入力。
- ASpeaker AHost (Cloned)BSpeaker BGuest (MiMo)2
話者に音声を割り当てる
検出された話者ごとにライブラリのクローン音声をバインドするか、内蔵 MiMo システム音声を選択。
- Speaker ALine 1Ready
"Welcome back to another exciting podcast..."
3個別のセリフを試聴
各カードの話者をクリックでそのセリフをプレビュー —— テキスト、話者、音声をオンザフライで調整可能。
- TRACK A - HOST48.5%TRACK B - GUESTWAITING4
ポッドキャストを合成
Synthesize をクリック。Cuevo はセリフ単位の TTS を 1 本の WAV に連結し、字幕スクロール用のタイミングデータも付与。
- Cuevo_Podcast_Final.wav12:345
再生してエクスポート
タイムラインをスクラブし、エピソード全体を再生。スクリプトを SRT や TXT としてエクスポートして編集に活用。