Google ColabをOllamaサーバーとして使えるノートブック「Ollama Colab Free Server」をリリースしました

2026年3月1日 · 約3分

Individual Developer

当サイトがお役に立ったら ⭐️ の応援お願いします🙏

本日、Google Colabの無料GPU上でOllamaを動かし、Claude CodeやContinueのバックエンドとして即座に利用できるオープンソースノートブック Ollama Colab Free Server を公開しました。セルを上から実行するだけで、数分以内に外部公開LLMサーバーが立ち上がります。

背景

Claude CodeやContinueなどのコーディングアシスタントは便利ですが、APIコストが積み上がる点と、コードを外部サービスに送ることへのプライバシー面の懸念が気になる場面があります。かといって、手元のGPUが非力だとローカルOllamaの推論は実用速度に届きません。

このノートブックはそのギャップを埋めます。Google Colabの無料T4 GPUでOllamaを動かし、ngrokでエンドポイントを公開することで、セットアップ不要・完全無料・外部へのデータ送信なしのLLMサーバーをブラウザだけで立てられます。

主な機能

コードを書かずに完結する設計になっています。最初のセル（Model Registry）でモデル名をカンマ区切りで入力・編集し、表示されるラジオボタンから使いたいモデルを選ぶだけです。

次のセル（Server）にngrokのトークンを貼り付けて実行すると、Ollamaのインストール、サーバー起動、ngrokトンネルの確立、モデルのpullが順番に自動実行されます。完了後は接続に必要なエンドポイントURLと、ContinueおよびClaude Code向けの設定スニペットがそのままターミナルに出力されます。

OpenAI互換クライアント（Codex CLI等）への対応も考慮しており、ベースURLの末尾に /v1 を追加するだけで利用できます。

接続できるツール

Continue（VS Code / JetBrains 拡張）: apiBase にエンドポイントURLを指定するだけ
Claude Code: ANTHROPIC_BASE_URL にエンドポイントを設定して利用（Ollama v0.14.0以降はAnthropicプロトコルにネイティブ対応）
OpenAI互換クライアント: エンドポイントURL + /v1 で接続

T4環境でのモデル選定の目安

Google ColabのT4 GPUで実用的に動作するのは8Bから14Bのモデルです。20B以上は生成速度が大幅に落ちるため、用途に合わせたサイズ選定をおすすめします。どのモデルが自分のユースケースに合うかを事前に確認したい場合は、Ollama Multi-Model Benchmarkerも活用してみてください。

使い始める

環境構築は不要です。ngrokの無料アカウントと認証トークンだけ用意してください。

Google Colab で実行する: Ollama Colab Free Server（日本語版）
ソースコードを見る: hiroaki-com/colab-ollama-server on GitHub

フィードバックやPull Requestはいずれも歓迎します。

技術的な詳細

アーキテクチャや実装の詳細については、以下のドキュメントにまとめています。

Google ColabのGPUでOllamaを動かして、無料のLLMサーバーを立てる。

当サイトがお役に立ったら ⭐️ の応援お願いします🙏

Star on GitHub

背景​

主な機能​

接続できるツール​

T4環境でのモデル選定の目安​

使い始める​

技術的な詳細​

背景

主な機能

接続できるツール

T4環境でのモデル選定の目安

使い始める

技術的な詳細