DigitalBase Docs (β版)製品サイト

モデル管理

LLM サーバ・モデル・GPU を管理画面から一元管理します。

対象:管理者必要権限:管理者ロールエディション:Ollama / vLLM

できること

  • LLM サーバ(Ollama / vLLM)の登録・状態確認
  • 利用可能モデルの管理
  • GPU リソースの確認
  • 利用状況・統計の確認
  • 推論性能のベンチマーク(vLLM)

バックエンド別の運用

区分モデルの供給
Ollama 版ローカルにダウンロードしたモデル
vLLM 版GPU サーバで提供するモデル(既定: チャット Qwen/Qwen3-4B、埋め込み intfloat/multilingual-e5-large-instruct。初回起動時に自動ダウンロード)
クラウド LLM 併用OpenAI / Anthropic / Gemini(API キー)

推論サーバー(vLLM)の運用

vLLM 版では、用途別に 3 つの推論サーバー を個別に管理できます。

サーバー役割
chatチャット・生成・ツール呼び出し
embedRAG 用の埋め込み
vision画像・図面・帳票の読み取り(VLM)

管理画面から、サーバーごとに次の操作を行えます。

  • 起動 / 停止 / 再起動 — サーバー単位で個別に制御します。
  • 状態・ログの確認 — 稼働状態と起動ログを画面で確認します。
  • GPU・稼働監視 — GPU 使用率やスループットをメトリクスで確認します。
  • モデルの導入・切替 — Qwen・NVIDIA Nemotron 等を HuggingFace のモデル ID で導入します。

ベンチマーク(性能計測)

vLLM サーバーに対して、スループット・レイテンシなどの推論性能を計測できます。GPU 構成やモデル選定の判断に使います。

モデルの追加(Ollama)

サーバ側でモデルを取得すると、チャットの一覧に表示されます。

ollama pull gemma3:4b
ollama pull nomic-embed-text   # RAG 用 埋め込み
補足

チャットに表示されるモデル一覧は、サーバ側の対応に従います。ツール呼び出しの可否もサーバ側の対応次第です(vLLM 版では .envVLLM_EXTRA_ARGS_CHAT でツール呼び出しを有効化します)。環境変数による自動起動と、管理画面からの管理を併用できます。

関連