VIDEO TRANSLATOR

AIビデオ翻訳

言語の壁を取り除きます。AIビデオ翻訳ツールを使用すれば、完璧なリップシンクであなたの動画を世界中に翻訳できます。オリジナルの声調やクローンされた声紋の特徴もそのまま保存されます。

エディターへ ➔

ASR-TTSタイムライン位置合わせターミナルサンドボックス

AI翻訳エンジンによって実行されるマルチトラックミキシングパイプライン。ボーカル分離、声紋クローン、顔の再レンダリングを組み合わせ、シームレスな同期を実現します。

TRANSLATION_ROUTERSTATUS: ON-LINE

// 接続されているコア処理API:

• 高精度音声認識 (ASR 音声認識＆アライメント)

• LLM構文コンパイラ (クロス言語構文コンパイラ)

• リップシンクレンダラー (3D顔メッシュ口元レンダリング)

ビデオ翻訳の主要技術・特徴

FEATURE 01

ボーカルと背景音の分離

ボーカルとBGMトラックをシームレスに分離し、元の高音質な背景音楽と効果音を完全に維持します。

FEATURE 02

高精度ASR＆大モデル翻訳

元の音声を単語レベルで正確に識別し、先進的なLLMを用いて自然でローカライズされた翻訳を実現します。

FEATURE 03

声紋クローンと音声合成

話者の声調や特徴を抽出し、元の声の質感と一致した自然なアフレコ音声を出力します。

FEATURE 04

超リアルなリップシンク

画素レベルの口型合成技術を適用し、音声タイムラインと完璧に同期した音画一体を実現します。

声調と声紋の継承

内蔵された高度なSpeaker-Cloning技術により、ターゲット言語でも元の話し手の声質、呼吸、感情を完全に再現し、「本人の声」で翻訳配音を行います。

3D 物理リップシンク

3D顔面メッシュフィッティングを用いて、合成されたターゲット言語の音素波形を口元に動的マッピングし、声と口の動きの違和感を解消します。

タイムストレッチフレームマッチ

setptsによるフレームレート自動調整を採用し、言語間の文字数差による音声の長さの違いをインテリジェントに補正し、映像と音声の不一致を完全に解決します。

ビデオ翻訳ワークベンチコントロール (Workbench Real Controls)

実際のビデオ翻訳ワークスペースで、ボーカルの質感や口の形を細かく調整できる以下のパラメータモジュールを提供します：

🌍

ターゲット言語の選択

英語、中国語、日本語など175以上の世界の言語間の翻訳をサポート。アップロード時の言語自動検出機能を備えています。

👄

リップシンクコントロール

AI拡散ネットワークを有効にして口元のフレームを再描画し、生成された翻訳音声とアバターの動きを一致させます。

🎙️

話し手の声紋保護

デフォルトでZero-Shot音声クローンを有効化。外部音声サンプルなしで、元の音声から同一のアフレコ音声を合成します。

🎼

ミキサー＆ボリュームバランス

翻訳されたボーカルと背景音の音量スライダーを提供。背景音の音量を個別に制御したり、完全にミュートしたりできます。

音ビデオタイムライン同期パネル

インテリジェントなASRから位置合わせされたリアルタイムの字幕と、大言語モデルからの翻訳テキストを追跡し、標準SRTスクリプトを出力します。

タイムラインアライメント同期詳細

セクション 01日本語: 0.5s - 2.2s | 英語: 0.5s - 2.2s

この晴れやかで美しい日に、私たちは雄大な山々を飛び越えます。

On this bright and sunny day, we soar over the magnificent mountains.

セクション 02日本語: 2.5s - 4.5s | 英語: 2.5s - 4.5s

黄金色の太陽の光を浴びて、雪に覆われた山頂が輝いているのが見えます。

You can see the snow-capped peaks gleaming in the golden sunlight.

AI音画タイムラインアライメント盤

翻訳テキスト長の変化と動画のタイムライン同期を自动調整

0.0s1.0s2.0s3.0s4.0s5.0s

元トラック (日本語)通常動画速度

この晴れやかで美しい日に、私たちは雄大な山々を飛び越えます。

黄金色の太陽の光を浴びて、雪に覆われた山頂が輝いているのが見えます。

翻訳後音声 (英語)話速自動圧縮 (1.4倍)

On this bright and sunny day, we soar over the magnificent mountains.

You can see the snow-capped peaks gleaming in the golden sunlight.

現在の進捗: 0.00秒|アライメントオフセット: 0.0秒 (音声トラック圧縮完了)

主な応用シナリオ

グローバル動画配信＆海外マーケティング

製品デモやプロモーション動画を一瞬で英語、中国語、日本語、スペイン語などの多言語版に翻訳し、グローバルトラフィックを簡単に獲得します。

多国籍企業のコラボレーション＆会議研修

多国籍企業内トレーニング、役員の挨拶、技術説明などの動画を自動的に高精度で翻訳・アフレコし、グローバルチーム間のコミュニケーションを円滑にします。

オンライン教育＆公開授業のグローバル化

高額な翻訳監督やプロの声優コストをかけることなく、ワンクリックで優れたオンライン授業を自然な英語や日本語の解説動画に翻訳できます。

ステップガイド

動画を翻訳する方法

Cuevo は動画を 175+ の言語にダブし、リップシンクと背景音楽の保持も対応。アップロードから完成 MP4 まで 5 クリック。

Drag source MP4/MOV file
Auto split audio & background track
1
ソース動画をアップロード
MP4、MOV、WebM をドラッグ —— システムは数秒でボーカルトラックと背景音楽を分離します。
TRANSLATION ROUTING
English (EN)Chinese (ZH)
2
翻訳先の言語を選ぶ
175+ 言語から選択。Cuevo はソースに ASR を実行し、DeepSeek 駆動の LLM パイプラインで翻訳します。
PREFERENCES
Keep background BGM
Enable Lip-Sync mouth movement
3
音声とミックスの設定
背景音楽の保持を切り替え、リップシンクを有効化し、必要に応じてクローン音声をバインドして元話者の声色を保持。
PIPELINE TRACKERRunning
ASR
Trans
TTS
LipSync
4
Start Translate をクリック
7 ステージのパイプラインを実行：抽出 → ASR → 翻訳 → TTS → 速度調整 → リップシンク → HD ミックス。
Translated OK
5
結果をダウンロード
口元同期済みの翻訳 MP4 を取得、または時間コード付き SRT 字幕ファイルをエクスポートして編集に活用。

よくある質問 (FAQ)

音声クローン、物理リップシンクの再構築、およびトラック合流の技術詳細について解説します。

Q.リップシンクの精度はどのくらいですか？

当パイプラインは先進的なリップシンクネットワークを使用しており、動画内の話し手の口元領域にフォーカスし、音声波形の特徴に基づいて口の動きを動的に再描画するため、非常に自然な仕上がりになります。

Q.言語によって話す速度や長さが異なりますが、映像と音声の同期はどのように維持されますか？

setpts時間アライメントアルゴリズムを採用しています。翻訳後の音声が元の音声より長い、または短い場合、システムは対応するビデオクリップの再生速度を自动調整し、映像と音声を厳密に同期させます。

Q.元の動画の背景音楽や環境音は消去されますか？

いいえ。伴奏分離モジュールがボーカルと伴奏トラックをきれいに分離します。システムはボーカルのみを翻訳・クローン合成し、最後に新しいアフレコと元の背景音楽をミキシングして高音質で出力します。

ビデオ翻訳の主要技術・特徴

FEATURE 01

ボーカルと背景音の分離

ボーカルとBGMトラックをシームレスに分離し、元の高音質な背景音楽と効果音を完全に維持します。

FEATURE 02

高精度ASR＆大モデル翻訳

元の音声を単語レベルで正確に識別し、先進的なLLMを用いて自然でローカライズされた翻訳を実現します。

FEATURE 03

声紋クローンと音声合成

話者の声調や特徴を抽出し、元の声の質感と一致した自然なアフレコ音声を出力します。

FEATURE 04

超リアルなリップシンク

画素レベルの口型合成技術を適用し、音声タイムラインと完璧に同期した音画一体を実現します。

AIビデオ翻訳

ASR-TTSタイムライン位置合わせターミナルサンドボックス

ビデオ翻訳の主要技術・特徴

ボーカルと背景音の分離

高精度ASR＆大モデル翻訳

声紋クローンと音声合成

超リアルなリップシンク

声調と声紋の継承

3D 物理リップシンク

タイムストレッチフレームマッチ

ビデオ翻訳ワークベンチコントロール (Workbench Real Controls)

ターゲット言語の選択

リップシンクコントロール

話し手の声紋保護

ミキサー＆ボリュームバランス

音ビデオタイムライン同期パネル

AI音画タイムラインアライメント盤

主な応用シナリオ

グローバル動画配信＆海外マーケティング

多国籍企業のコラボレーション＆会議研修

オンライン教育＆公開授業のグローバル化

動画を翻訳する方法

ソース動画をアップロード

翻訳先の言語を選ぶ

音声とミックスの設定

Start Translate をクリック

結果をダウンロード

よくある質問 (FAQ)

Q.リップシンクの精度はどのくらいですか？

Q.言語によって話す速度や長さが異なりますが、映像と音声の同期はどのように維持されますか？

Q.元の動画の背景音楽や環境音は消去されますか？

AIビデオ翻訳

ASR-TTSタイムライン位置合わせターミナルサンドボックス

ビデオ翻訳の主要技術・特徴

ボーカルと背景音の分離

高精度ASR＆大モデル翻訳

声紋クローンと音声合成

超リアルなリップシンク

声調と声紋の継承

3D 物理リップシンク

タイムストレッチフレームマッチ

ビデオ翻訳ワークベンチコントロール (Workbench Real Controls)

ターゲット言語の選択

リップシンクコントロール

話し手の声紋保護

ミキサー＆ボリュームバランス

音ビデオタイムライン同期パネル

AI音画タイムラインアライメント盤

主な応用シナリオ

グローバル動画配信＆海外マーケティング

多国籍企業のコラボレーション＆会議研修

オンライン教育＆公開授業のグローバル化

動画を翻訳する方法

ソース動画をアップロード

翻訳先の言語を選ぶ

音声とミックスの設定

Start Translate をクリック

結果をダウンロード

よくある質問 (FAQ)

Q.リップシンクの精度はどのくらいですか？

Q.言語によって話す速度や長さが異なりますが、映像と音声の同期はどのように維持されますか？

Q.元の動画の背景音楽や環境音は消去されますか？