モデル管理
LLM サーバ・モデル・GPU を管理画面から一元管理します。
対象:管理者必要権限:管理者ロールエディション:Ollama / vLLM
できること
- LLM サーバ(Ollama / vLLM)の登録・状態確認
- 利用可能モデルの管理
- GPU リソースの確認
- 利用状況・統計の確認
- 推論性能のベンチマーク(vLLM)
バックエンド別の運用
| 区分 | モデルの供給 |
|---|---|
| Ollama 版 | ローカルにダウンロードしたモデル |
| vLLM 版 | GPU サーバで提供するモデル(既定: チャット Qwen/Qwen3-4B、埋め込み intfloat/multilingual-e5-large-instruct。初回起動時に自動ダウンロード) |
| クラウド LLM 併用 | OpenAI / Anthropic / Gemini(API キー) |
推論サーバー(vLLM)の運用
vLLM 版では、用途別に 3 つの推論サーバー を個別に管理できます。
| サーバー | 役割 |
|---|---|
chat | チャット・生成・ツール呼び出し |
embed | RAG 用の埋め込み |
vision | 画像・図面・帳票の読み取り(VLM) |
管理画面から、サーバーごとに次の操作を行えます。
- 起動 / 停止 / 再起動 — サーバー単位で個別に制御します。
- 状態・ログの確認 — 稼働状態と起動ログを画面で確認します。
- GPU・稼働監視 — GPU 使用率やスループットをメトリクスで確認します。
- モデルの導入・切替 — Qwen・NVIDIA Nemotron 等を HuggingFace のモデル ID で導入します。
ベンチマーク(性能計測)
vLLM サーバーに対して、スループット・レイテンシなどの推論性能を計測できます。GPU 構成やモデル選定の判断に使います。
モデルの追加(Ollama)
サーバ側でモデルを取得すると、チャットの一覧に表示されます。
ollama pull gemma3:4b
ollama pull nomic-embed-text # RAG 用 埋め込み
補足
チャットに表示されるモデル一覧は、サーバ側の対応に従います。ツール呼び出しの可否もサーバ側の対応次第です(vLLM 版では .env の VLLM_EXTRA_ARGS_CHAT でツール呼び出しを有効化します)。環境変数による自動起動と、管理画面からの管理を併用できます。