DigitalBase Docs (β版)製品サイト

文字起こし

音声・動画ファイルをテキストに変換します。Whisper モデルを別途インストールすると利用可能になります(オプション機能)。

対象:一般ユーザー / 管理者

モデル比較

モデルサイズ30 分音声 (CPU)30 分音声 (GPU)精度用途
tiny74MB約 3 分約 30 秒★★☆☆☆高速プレビュー、メモ
base142MB約 5 分約 45 秒★★★☆☆日常会話、簡易議事録
small466MB約 15 分約 1.5 分★★★★☆ビジネス文書、インタビュー
medium1.5GB約 40 分約 3 分★★★★☆専門用語を含む録音
large2.9GB約 90 分約 5 分★★★★★高精度が必須の文書化

※ 処理時間は目安です。CPU/GPU 性能・音声品質により変動します。

前提: FFmpeg

音声変換に FFmpeg が必要です(管理者作業)。

OSコマンド
macOSbrew install ffmpeg
Linuxsudo apt install -y ffmpeg
Windowsインストーラが winget で導入

モデルのインストール

# macOS / Linux(デフォルト tiny。末尾でモデル指定可: base / small / medium / large)
curl -fsSL https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.sh | bash -s -- small
# Windows
irm https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.ps1 | iex

インストール後、DigitalBase を再起動するとサイドバーに「文字起こし」が表示されます。

仕様

項目内容
対応形式WAV, MP3, M4A, MP4, WebM, OGG, FLAC, AAC
最大ファイルサイズ100MB
対応言語日本語, English
GPU 対応Metal (macOS), CUDA (Linux/Windows)

モデルの変更

rm -rf ~/.local/db/models/whisper
curl -fsSL https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.sh | bash -s -- small
注意

RTX 50 シリーズ (Blackwell) は標準ではプリビルドバイナリ未対応のため、CPU 処理にフォールバックします。GPU を使う場合は CUDA Toolkit 12.8 以上を入れてソースからビルドが必要です。詳細はサポートにお問い合わせください。

関連

  • チャット — 文字起こし結果を貼り付けて要約・議事録化