「動画を多言語展開したいけど、吹き替え費用が高すぎる」「字幕だけじゃ物足りないけど、口の動きまで合わせるのは難しい」という悩みを持つ方は多いのではないでしょうか。
Vozo AIは、動画翻訳・AIダビング・リップシンク・字幕生成をまとめてこなせる動画ローカライズツールです。40カ国以上で700万人以上のクリエイター・企業に使われており、165言語への対応と独自のリップシンク技術が特徴です。
700万+
利用クリエイター・企業数
165言語
対応翻訳ターゲット言語
40カ国+
利用国数
60分まで
1ファイルあたりの上限(Creatorプラン)
動画を多言語展開する場合、従来は翻訳・声優収録・口パク合わせをそれぞれ外注する必要があり、1言語あたり数十万円以上かかることもありました。VozoはAIがこれらを一括処理するため、コストと時間を大幅に削減できます。
Vozo AIの主な機能
Vozoは動画ローカライズに必要な機能を7つのツールとして提供しています。
翻訳&ダビング(Translate & Dub)
動画の音声を翻訳し、AIが元の話者の声を再現したダビング音声を生成します。VozoはここにVoiceREAL™とVoiceNATIVE™という2つの独自技術を持っています。
VoiceREAL™(音声クローニング)
元の話者の声のトーン・ピッチ・感情表現を保ったまま、別言語で音声を生成します。「声が別人になってしまう」問題を抑えるための技術です。
VoiceNATIVE™(ネイティブアクセント生成)
翻訳先の言語で自然に聞こえるネイティブアクセントの音声を生成します。「翻訳っぽい棒読み感」を減らしたい場合に向いています。
リップシンク(Lip Sync)
LipREAL™技術により、翻訳ダビング後の音声に合わせて口の動きを映像上で同期させます。頭の動き・顔の向き・ひげなどの障害物にも対応しており、複数人が映る動画でも各話者の口をそれぞれ同期できます。
リップシンクは「翻訳ダビング」と「単体」の2通りで使える
すでに別途作成した音声ファイルをアップロードして、映像だけリップシンクさせることも可能です。自社で収録した多言語音声に組み合わせる使い方もできます。
字幕翻訳(Translate Subtitles)
動画に翻訳した字幕や、元言語と翻訳言語を並べたバイリンガル字幕を追加できます。字幕の改行位置を意味単位で自動調整するほか、フォント・スタイルのカスタマイズも可能です。
ビジュアル翻訳(Visual Translate)
動画内の画面上テキスト(製品名・スライドの文字・タイトルなど)を自動検出し、翻訳してレイアウトを再構成します。元のデザインやアニメーションを維持したまま、文字部分だけ差し替えられるのが特徴です。
トーキングフォト(Talking Photo)
1枚の写真から、話しているように動く動画を生成します。アバター・広告素材・Eラーニングのインストラクター映像などで活用されています。
ショーツジェネレーター(Shorts Generator)
長尺動画からバイラルになりやすい短尺クリップを自動生成します。AIがバイラル性スコアを判定し、自動リフレーミング・アニメーション字幕付きでショート動画を出力します。
ボイススタジオ(Voice Studio)
テキストベースの音声編集・クローニング・テキスト読み上げ(TTS)ができるスタジオ機能です。ナレーション収録なしで音声コンテンツを制作する用途に向いています。
Vozo AIの料金
Vozoはすべて「AIポイント」という単位で使用量を計量する料金体系です。処理する動画の長さや使うツールによって消費ポイントが変わります。翻訳前に消費ポイントが表示される仕組みになっているので、使ってみて初めて課金されるという構造ではありません。
| プラン | 月額 | AIポイント/月 | 目安(ダビング) |
|---|---|---|---|
| Free | $0 | 20ポイント(試用) | 約6分 |
| Creator 人気 | $29/月 | 150ポイント/月 | 約50分 |
| Studio | $99/月 | 600ポイント/月 | 約200分 |
| Studio XL | 要確認 | 1,500ポイント/月 | 約500分 |
| Studio XXL | 要確認 | 4,000ポイント/月 | 約1,330分 |
| Enterprise | 要問い合わせ | カスタム | 大容量割引あり |
年払いで25%割引
年払いを選択すると、月払いと比較して25%割引になります。継続利用を想定している場合は、年払いが現実的な選択肢です。
リップシンクはポイント消費が多め
ダビングの約3倍ほどのポイントを消費します(ダビング約50分に対し、リップシンクはCreatorプランで約15分相当)。リップシンクをメインで使う場合は、必要ポイント数を事前に確認しておくことをおすすめします。
ポイントが足りなくなったら追加購入できる
サブスクプランの変更なしに、スポットでポイントパックを購入することもできます。月によって使用量が大きく変動する場合に活用できます。
こんな人・用途に向いています
Vozoが特に力を発揮するケースをまとめました。
Vozoが向いているケース
こういった用途に強い
- YouTubeやSNS動画を複数言語に翻訳・ダビングしたい
- 研修・Eラーニング動画を社内で多言語展開したい
- スライドや画面テキストを含む動画ごと翻訳したい
- 声優なしで自然な吹き替えを短時間で作りたい
- 長尺動画からショート動画も同時に生成したい
他のツールも検討したいケース
要件によっては別の選択肢も
- 映画・ドラマレベルの高品質ダビングが必要(→プロスタジオ)
- APIで大量処理を自動化したい(→Enterprise問い合わせが必要)
- 日本語のニュアンス精度が最優先(言語ペアごとに精度差あり)
- 音声クローニングのみを単体で使いたい(→ElevenLabsなど)
注意点・正直なところ
利用前に把握しておきたい点をまとめます。
言語ペアによってリップシンク精度に差がある
英語→スペイン語は精度が高い一方、英語→スウェーデン語などでは口の動きの正確さがやや落ちることがあるというユーザー報告があります。本番利用前にターゲット言語でのテストをおすすめします。
Freeプランで使えるのは3プロジェクトまで
無料プランはプロジェクト数に上限があり、AIダビングやリップシンクなどのポイント消費機能は利用できません(字幕翻訳のみ利用可)。本格的に試すには有料プランへの移行が必要です。
APIは現在ウェイトリスト制
APIアクセスはEnterprise向けのみで、現在はBDチームへの問い合わせが必要な状況です。大量処理の自動化を想定している場合は、事前にサポートへ確認することをおすすめします。
SOC 2 Type II準拠・GDPR対応を進めている
セキュリティ面では、SOC 2 Type IIの監査対応中(audit in progress)とGDPR準拠のデータ処理方針を採用しています。企業での利用を検討する際の参考情報として。
まとめ
Vozo AIは、動画翻訳・ダビング・リップシンク・字幕・画面テキスト翻訳をGUIで一気通貫に処理できるローカライズツールです。
とくにVoiceREAL™による声質維持とLipREAL™による口パク同期は、他の翻訳ツールと比べて差別化が明確な部分です。Creatorプラン($29/月)から試せる点でもハードルは低めです。ただし、ポイント消費量や言語ペアごとの精度差など、まずは無料プランで実際の動画を試してから検討するのがよいでしょう。
Vozo AIが特に向いているケース
- YouTube・SNS動画を多言語展開したいクリエイター
- Eラーニング・研修動画を複数言語で展開したい企業
- 声優なしでリアルな吹き替え動画を作りたい
- 動画内の画面テキストも含めてまるごと翻訳したい
