文字起こし

音声・動画ファイルをテキストに変換します。Whisper モデルを別途インストールすると利用可能になります（オプション機能）。

対象:一般ユーザー / 管理者

モデル比較

モデル	サイズ	30 分音声 (CPU)	30 分音声 (GPU)	精度	用途
tiny	74MB	約 3 分	約 30 秒	★★☆☆☆	高速プレビュー、メモ
base	142MB	約 5 分	約 45 秒	★★★☆☆	日常会話、簡易議事録
small	466MB	約 15 分	約 1.5 分	★★★★☆	ビジネス文書、インタビュー
medium	1.5GB	約 40 分	約 3 分	★★★★☆	専門用語を含む録音
large	2.9GB	約 90 分	約 5 分	★★★★★	高精度が必須の文書化

※ 処理時間は目安です。CPU/GPU 性能・音声品質により変動します。

前提: FFmpeg

音声変換に FFmpeg が必要です（管理者作業）。

OS	コマンド
macOS	`brew install ffmpeg`
Linux	`sudo apt install -y ffmpeg`
Windows	インストーラが winget で導入

モデルのインストール

# macOS / Linux（デフォルト tiny。末尾でモデル指定可: base / small / medium / large）
curl -fsSL https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.sh | bash -s -- small

# Windows
irm https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.ps1 | iex

インストール後、DigitalBase を再起動するとサイドバーに「文字起こし」が表示されます。

仕様

項目	内容
対応形式	WAV, MP3, M4A, MP4, WebM, OGG, FLAC, AAC
最大ファイルサイズ	100MB
対応言語	日本語, English
GPU 対応	Metal (macOS), CUDA (Linux/Windows)

モデルの変更

rm -rf ~/.local/db/models/whisper
curl -fsSL https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.sh | bash -s -- small

注意

RTX 50 シリーズ (Blackwell) は標準ではプリビルドバイナリ未対応のため、CPU 処理にフォールバックします。GPU を使う場合は CUDA Toolkit 12.8 以上を入れてソースからビルドが必要です。詳細はサポートにお問い合わせください。

文字起こし

モデル比較

前提: FFmpeg

モデルのインストール

仕様

モデルの変更

関連