文字起こし
音声・動画ファイルをテキストに変換します。Whisper モデルを別途インストールすると利用可能になります(オプション機能)。
対象:一般ユーザー / 管理者
モデル比較
| モデル | サイズ | 30 分音声 (CPU) | 30 分音声 (GPU) | 精度 | 用途 |
|---|---|---|---|---|---|
| tiny | 74MB | 約 3 分 | 約 30 秒 | ★★☆☆☆ | 高速プレビュー、メモ |
| base | 142MB | 約 5 分 | 約 45 秒 | ★★★☆☆ | 日常会話、簡易議事録 |
| small | 466MB | 約 15 分 | 約 1.5 分 | ★★★★☆ | ビジネス文書、インタビュー |
| medium | 1.5GB | 約 40 分 | 約 3 分 | ★★★★☆ | 専門用語を含む録音 |
| large | 2.9GB | 約 90 分 | 約 5 分 | ★★★★★ | 高精度が必須の文書化 |
※ 処理時間は目安です。CPU/GPU 性能・音声品質により変動します。
前提: FFmpeg
音声変換に FFmpeg が必要です(管理者作業)。
| OS | コマンド |
|---|---|
| macOS | brew install ffmpeg |
| Linux | sudo apt install -y ffmpeg |
| Windows | インストーラが winget で導入 |
モデルのインストール
# macOS / Linux(デフォルト tiny。末尾でモデル指定可: base / small / medium / large)
curl -fsSL https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.sh | bash -s -- small
# Windows
irm https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.ps1 | iex
インストール後、DigitalBase を再起動するとサイドバーに「文字起こし」が表示されます。
仕様
| 項目 | 内容 |
|---|---|
| 対応形式 | WAV, MP3, M4A, MP4, WebM, OGG, FLAC, AAC |
| 最大ファイルサイズ | 100MB |
| 対応言語 | 日本語, English |
| GPU 対応 | Metal (macOS), CUDA (Linux/Windows) |
モデルの変更
rm -rf ~/.local/db/models/whisper
curl -fsSL https://pub-a2cab4360f1748cab5ae1c0f12cddc0a.r2.dev/vite-scripts/install-transcribe.sh | bash -s -- small
注意
RTX 50 シリーズ (Blackwell) は標準ではプリビルドバイナリ未対応のため、CPU 処理にフォールバックします。GPU を使う場合は CUDA Toolkit 12.8 以上を入れてソースからビルドが必要です。詳細はサポートにお問い合わせください。
関連
- チャット — 文字起こし結果を貼り付けて要約・議事録化