Google ColabでローカルLLMを無料比較できるOSSツール「Ollama Multi-Model Benchmarker」をリリースしました
本日、ローカルLLMの選定を支援するオープンソースツール Ollama Multi-Model Benchmarker を公開しました。Google Colabの無料T4 GPU環境上で複数のOllamaモデルを一括テストし、生成速度・応答性・モデルサイズなどの指標を自動で比較・可視化します。
背景
Llama、Qwen、Mistralをはじめ、公開されるローカルLLMの数は急速に増えています。各モデルの特性を把握するうえで、一般的なベンチマークスコアは参考になりますが、自分のユースケースに特化したプロンプトで実際に動かしてみるまで、実用的な適性はわかりません。
かといって、ローカル環境に複数のモデルをセットアップしてひとつひとつ試すのは、ストレージと時間の両面でコストがかかります。本ツールは「まずクラウドで試してから、有望なモデルだけローカルに導入する」というワークフローを実現するために開発しました。
主な機能
コードを書かずに実行できる設計になっています。Colabのフォームにモデル名を入力し、チェックボックスで対象を選んで再生ボタンを押すだけです。
測定する指標は生成速度(tokens/sec)、Time To First Token(TTFT)、総処理時間、モデルロード時間、ダウンロード時間、モデルサイズの6種類で、チャット・コード生成・制約の大きい環境など、用途ごとに注目すべき指標が異なることを考慮しています。
結果はテーブルと6種類のグラフで表示され、各モデルの実際の出力テキストもその場で確認できます。save_to_drive = True を指定すると、測定結果がGoogle DriveのJSON形式で自動保存されるため、セッションをまたいだ比較も可能です。
モデルダウンロード前にディスク容量を自動チェックし、容量不足の場合はスキップします。一度測定したモデルのサイズはキャッシュされ、以降の実行を高速化します。
T4環境でのモデル選定の目安
Google ColabのT4 GPUで実用的に動作するモデルサイズは8Bから14Bが中心です。20B以上のモデルは生成速度が大幅に低下するため、用途に合わせたサイズ選定が重要になります。
使い始める
環境構築は不要です。以下のColabリンクを開き、再生ボタンを押すだけで実行できます。
- Google Colab で実行する: Ollama Multi-Model Benchmarker (日本語版)
- ソースコードを見る: hiroaki-com/ollama-llm-benchmark on GitHub
フィードバックやPull Requestはいずれも歓迎します。
