Deepgram

「Deepgram」を開く

Deepgram

音声認識・音声合成・ボイスエージェントAPIを一つのプラットフォームで提供する、開発者向け音声AIサービス。

音声生成AI, アプリ開発, 文字起こし

無料トライアル

最終更新: 2026/06/21

「Deepgram」を開く

コミュニティに参加しよう

あなたの声が他のユーザーの参考になります

X（Twitter）ポスト投稿

Deepgramに関する投稿をシェアして、
作品や体験談をコミュニティで共有しましょう

Xで投稿

URLをコピー

貼り付け完了

この機能は現在準備中です

💡 例：作品紹介、活用事例、使ってみた感想、便利な使い方など
#Skywork #AI #生産性向上

質問・相談投稿

Deepgramについて分からないことや
使い方の相談を気軽に投稿してください

💡 匿名で投稿可能です
コミュニティメンバーや運営チームが回答します

「Deepgram」とは？

「音声AIのAPIを探しているけど、どれを選べばいいかわからない」という方は多いのではないでしょうか。

Deepgramは、音声認識（STT）・音声合成（TTS）・ボイスエージェントAPIを一つのプラットフォームで提供する、開発者向けの音声AIサービスです。Twilio・Cloudflare・IBMといった大手企業にも採用されており、20万人以上の開発者がAPIを活用しています。

Deepgramは単なる文字起こしツールではなく、STT（音声→テキスト）・TTS（テキスト→音声）・ボイスエージェントAPIの3つを統合して提供しています。

20万+

登録開発者数

5万年分+

処理済み音声データ

45+

対応言語数（STT）

300ms未満

リアルタイムレイテンシ

音声AIの用途は、会議の文字起こしや字幕生成といった比較的シンプルなものから、カスタマーサポートの自動化・リアルタイムの音声エージェント構築まで幅広くあります。Deepgramはそのどちらにも対応できる設計になっています。

日本語を含む45以上の言語に対応しており、グローバルなアプリケーション開発にも使えます。

Deepgramの主な機能

Deepgramは3つのAPIで構成されています。それぞれの役割と特徴を見てみましょう。

Speech-to-Text（音声認識）

音声をテキストに変換するAPIです。リアルタイム処理（ストリーミング）と、録音済みファイルのバッチ処理の両方に対応しています。

主力モデルは「Nova-3」と「Flux」の2系統です。Nova-3はノイズの多い環境や専門用語が多い業務シーンでの精度が高く、Fluxは会話型AIエージェント向けに設計されており、話者の発言の終わりを自動で検知する機能（End-of-Turn検知）を持っています。

話者分離（Speaker Diarization）

複数人が話す音声から「誰がいつ話したか」を自動で識別。会議録や対談コンテンツの文字起こしに便利です。

スマートフォーマット

句読点・日付・数字・通貨などを自動で整形。読みやすいテキストが出力されます。無料で利用できます。

キーターム指定

業界専門用語や製品名など、認識させたい固有語を事前に登録して精度を上げられます。

PII自動マスキング

個人情報（電話番号・クレジットカード番号など）をテキスト化する前に自動で除去します。

Text-to-Speech（音声合成）

テキストを自然な音声に変換するAPIです。会話AIシステムやIVR（電話の自動応答）、アクセシビリティ対応アプリなどに組み込む用途を想定しています。

Aura-2モデルは90ms前後の低レイテンシで応答でき、リアルタイムの会話体験に向いています。音質よりも応答速度が重要な場面に適しています。

Voice Agent API

STT・LLM・TTSをワンAPIで統合した、会話型AIエージェント向けのインターフェースです。通常これらを組み合わせて構築するとなると、それぞれのAPIを連携させる実装が必要になりますが、DeepgramのボイスエージェントAPIはその手間を省いた設計になっています。

割り込み検知（バージイン）・ターンテーキング予測・ファンクションコールにも対応しており、自然な会話の流れを実現しやすい構造です。

Audio Intelligence（音声分析）

文字起こしの結果にAI分析を追加できる機能群です。感情分析・トピック抽出・要約・インテント認識などが利用できます。ただし、これらはSTTの料金とは別にトークン単位での課金になります。

Deepgramの料金

Deepgramはすべて従量課金制で、サインアップ時に$200分の無料クレジットが付与されます（クレジットカード不要）。プランは3種類です。

プラン	費用	向いている規模
Pay As You Go	$200無料クレジット後、従量課金	個人開発者・スタートアップ
Growth	$4,000+/年（最大20%割引）	成長中のプロダクト
Enterprise	要問い合わせ	大規模・セキュリティ要件あり

APIごとの主な料金

API	モデル/プラン	Pay As You Go
STT（音声認識）	Nova-3 Monolingual（ストリーミング）	$0.0048/分
	Flux English（ストリーミング）	$0.0065/分
TTS（音声合成）	Aura-2	$0.030/1,000文字
	Aura-1	$0.015/1,000文字
Voice Agent API	Standard（STT+LLM+TTS込み）	$0.075/分（約$4.50/時間）

話者分離・PII除去は別途加算

Speaker Diarization（話者分離）やRedaction（PII除去）は、STT料金に加えてそれぞれ$0.002/分が追加されます。事前に使う機能を確認した上でコストを試算しておくとよいでしょう。

ステレオ音声は2倍コストになる点に注意

マルチチャンネル（ステレオ）の音声ファイルはチャンネル数ぶん課金されます。コールセンターや会議録音などで2チャンネル録音を使う場合は、モノラルに比べてコストが2倍になります。

まず$200クレジットで試してみる

無料で始める（カード不要）

Growthプランへのアップグレードは後から検討できます

こんな人・用途に向いています

Deepgramはすべての音声ユースケースに万能というわけではありません。向いている使い方と、やや注意が必要な使い方を整理しました。

音声AIアプリを自作したい開発者リアルタイム文字起こしが必要コールセンター自動化ボイスエージェント構築大量音声のバッチ処理

Deepgramが向いているケース

こういった用途に強い

カスタマーサポートの通話を自動文字起こし・分析したい
リアルタイムで動く会話型AIエージェントを構築したい
大量の音声ファイルをAPIで一括処理したい
Google・AWS・Azureと違うAPIを評価したい
セルフホスト（オンプレミス）での運用も検討している

他のツールも検討したいケース

要件によっては別の選択肢も

コード不要のGUI文字起こしツールが欲しい（→Otter.aiなど）
高品質な音声クローニングが主な目的（→ElevenLabsなど）
英語以外の細かいニュアンスまで求める（言語ごとに精度差あり）
月$4,000以下の予算でGrowthプランのコスト削減効果を見込みにくい

注意点・正直なところ

Deepgramを検討する前に知っておきたい点をまとめます。

英語以外の精度は言語・環境によって差がある

英語での精度は業界トップクラスとされていますが、日本語を含むその他の言語では環境・話者によって認識精度に差が出ることがあります。本番導入前に実際の音声データでテストしておくことをおすすめします。

Audio Intelligence機能は別途コストが発生する

要約・感情分析・トピック抽出といった機能はSTT料金に含まれておらず、トークン単位で追加課金されます。これらを多用するケースでは、月額コストが想定以上になる可能性があります。

GUIツールではなく、開発者向けのAPIサービス

Deepgramはコードを書いて使うAPIサービスです。「プログラミングなしで文字起こしがしたい」という用途には、別のツールを検討するほうが現実的です。

セルフホスト（オンプレミス）も可能

クラウドAPIだけでなく、自社サーバー上でモデルを動かすオンプレミス対応も提供しています。金融・医療など、データをクラウドに送れない要件がある場合に選択肢になります（Enterprise問い合わせが必要）。

Deepgramと主な競合の違い

よく比較される音声AIサービスとの違いをまとめました。

サービス	強み	Deepgramとの違い
AssemblyAI	Audio Intelligence（要約・感情分析）が豊富	DeepgramはSTT速度・リアルタイム性能が高い。音声分析はAssemblyAIのほうが機能豊富な傾向
ElevenLabs	TTS音質・音声クローニング	DeepgramはSTTとボイスエージェントが主軸。ElevenLabsはTTS特化のクリエイター向け
OpenAI Whisper	多言語精度・オープンソース	Whisperはバッチ処理向け。リアルタイム処理ではDeepgramが速い
Google Cloud STT	Google製品との連携・多言語	既存のGCPインフラに乗っている場合はGoogle、独立API選定ならDeepgramも選択肢

まとめ

Deepgramは、リアルタイム性と開発者向けの柔軟性を重視した音声AIAPIプラットフォームです。

「音声認識（STT）だけ欲しい」という単純な用途から、「STT・TTS・LLMを組み合わせたボイスエージェントを作りたい」という複雑な用途まで、APIで一気通貫に構築できるのが特徴です。$200の無料クレジットで試せるので、まず実際の音声データで精度を確認してみるのがよいでしょう。

Deepgramが特に向いているケース

リアルタイムで動作する音声AIアプリを開発したい
コールセンターや会議の文字起こしを大量処理したい
STT・TTS・エージェントAPIをまとめて一つのプラットフォームで使いたい
セルフホスト対応が必要な業界（金融・医療など）

＼まずは$200クレジットで無料体験／

Deepgramを無料で試す

クレジットカード不要・ Playground でコードなしでも確認できます

Deepgram

コミュニティに参加しよう

X（Twitter）ポスト投稿

質問・相談投稿

「Deepgram」とは？

Deepgramの主な機能

Speech-to-Text（音声認識）

Text-to-Speech（音声合成）

Voice Agent API

Audio Intelligence（音声分析）

Deepgramの料金

APIごとの主な料金

こんな人・用途に向いています

注意点・正直なところ

Deepgramと主な競合の違い

まとめ

「Deepgram」の関連記事

「Deepgram」の関連記事

関連AIツール

AIツールを探す

急上昇AIツール

新着AIツール

山原慎也

Deepgram

コミュニティに参加しよう

X（Twitter）ポスト投稿

質問・相談投稿

「Deepgram」とは？

Deepgramの主な機能

Speech-to-Text（音声認識）

Text-to-Speech（音声合成）

Voice Agent API

Audio Intelligence（音声分析）

Deepgramの料金

APIごとの主な料金

こんな人・用途に向いています

注意点・正直なところ

Deepgramと主な競合の違い

まとめ

「Deepgram」の関連記事

「Deepgram」の関連記事

関連AIツール

AIツールを探す

急上昇AIツール

新着AIツール

山原 慎也

山原慎也