AI & AUTOMATION SELF HOSTING

Hướng dẫn cài đặt và sử dụng Ollama cho Home Lab

21/09/2025249 views0

Trong thế giới AI đang phát triển nhanh chóng, việc chạy các mô hình ngôn ngữ lớn (LLM) tại nhà không còn là giấc mơ xa vời. Ollama là một công cụ mã nguồn mở tuyệt vời giúp bạn làm điều đó một cách đơn giản và hiệu quả. Trong bài viết này, mình sẽ hướng dẫn bạn từng bước cài đặt và sử dụng Ollama trên Linux, tập trung vào việc chạy LLM cục bộ như Llama 3.

Ollama cho phép bạn tải về, chạy và quản lý các mô hình AI mà không cần các dịch vụ đám mây đắt đỏ hay API bên thứ ba. Điều này lý tưởng cho home lab, nơi bạn có thể thí nghiệm với AI mà vẫn giữ quyền kiểm soát dữ liệu và chi phí. Chúng ta sẽ bao quát từ giới thiệu đến sử dụng cơ bản, với các lệnh dễ copy-paste. Let’s go!

Giới thiệu về Ollama

Ollama là một nền tảng mã nguồn mở được thiết kế để chạy các mô hình ngôn ngữ lớn cục bộ trên phần cứng của bạn. Ra mắt bởi nhóm phát triển độc lập, Ollama đã trở thành lựa chọn phổ biến trong cộng đồng home lab nhờ tính đơn giản và khả năng tích hợp. Nó hỗ trợ các mô hình phổ biến như Llama, Mistral, Gemma và Phi, cho phép bạn chạy chúng mà không cần cấu hình phức tạp.

Lợi ích chính cho home lab:

Tự chủ: Chạy AI cục bộ giúp bảo mật dữ liệu – không gửi thông tin nhạy cảm lên đám mây.
Tiết kiệm chi phí: Không phí subscription; chỉ dùng tài nguyên phần cứng của bạn.
Dễ mở rộng: Tích hợp với các công cụ như Docker, API, hoặc thậm chí các ứng dụng web như OpenWebUI.
Hiệu suất cao: Ollama tối ưu hóa cho CPU và GPU, hỗ trợ quantization để chạy mô hình lớn trên phần cứng hạn chế.
Cộng đồng mạnh mẽ: Hàng ngàn mô hình có sẵn trên Ollama Hub, với tài liệu và script cộng đồng.

Trong năm 2025, với sự bùng nổ của AI edge computing, Ollama nổi bật vì khả năng chạy trên các thiết bị từ PC thông thường đến server tự chế. Nếu bạn đang xây dựng home lab để thử nghiệm AI, đây là công cụ phải có. Bây giờ, hãy kiểm tra yêu cầu hệ thống.

Yêu cầu hệ thống (trên Linux)

Ollama được thiết kế để chạy mượt mà trên Linux, và mình khuyên bạn nên sử dụng Ubuntu 22.04 hoặc mới hơn vì tính ổn định. Dưới đây là các yêu cầu tối thiểu và khuyến nghị:

Hệ điều hành: Linux-based distro (Ubuntu, Debian, Fedora). Ollama hỗ trợ x86_64 và ARM64, nên phù hợp với PC thông thường hoặc Raspberry Pi.
Phần cứng:
- CPU: Ít nhất 4 lõi (như Intel i5 hoặc AMD Ryzen 5) với hỗ trợ AVX2. Đối với mô hình lớn, cần CPU mạnh hơn.
- RAM: Tối thiểu 8GB cho mô hình nhỏ (như Llama 3 8B); khuyến nghị 16GB+ cho mô hình lớn hơn.
- Lưu trữ: Ít nhất 20GB trống cho mô hình (một mô hình như Llama 3 có thể chiếm 5-50GB tùy kích thước).
- GPU (tùy chọn nhưng khuyến khích): NVIDIA GPU với ít nhất 4GB VRAM (như GTX 1660 hoặc RTX 30-series). Ollama tự động sử dụng CUDA nếu có. Nếu không có GPU, nó fallback sang CPU, nhưng chậm hơn.
Phần mềm:
- curl (để tải script cài đặt).
- Git (tùy chọn, cho việc clone repo nếu cần tùy chỉnh).
- NVIDIA drivers và CUDA toolkit (nếu dùng GPU) – cài qua apt install nvidia-cuda-toolkit trên Ubuntu.
Mạng: Kết nối internet ổn định để tải mô hình lần đầu. Sau đó, có thể chạy offline.

Nếu home lab của bạn dùng Docker, Ollama cũng có image chính thức, nhưng hướng dẫn này tập trung vào cài đặt native cho hiệu suất tốt nhất. Đảm bảo hệ thống cập nhật bằng sudo apt update && sudo apt upgrade.

Các bước cài đặt

Cài đặt Ollama trên Linux rất đơn giản nhờ script tự động. Mình sẽ hướng dẫn từng bước, giả sử bạn đang dùng Ubuntu. Nếu dùng distro khác, điều chỉnh lệnh package manager tương ứng.

Bước 1: Tải và cài đặt Ollama

Mở terminal và chạy lệnh sau để tải script cài đặt:

curl -fsSL https://ollama.com/install.sh | sh

Script này sẽ kiểm tra hệ thống, tải binary Ollama và cài đặt nó vào /usr/local/bin. Nếu gặp lỗi quyền, thêm sudo. Sau khi chạy, xác nhận bằng lệnh:

ollama --version

Bạn nên thấy phiên bản mới nhất (ví dụ: ollama version 0.1.50 hoặc cao hơn).

Bước 2: Cấu hình GPU (nếu có)

Nếu bạn có GPU NVIDIA, đảm bảo driver đã cài. Kiểm tra bằng nvidia-smi. Ollama sẽ tự phát hiện và sử dụng GPU khi chạy mô hình. Không cần cấu hình thêm – nó plug-and-play.

Bước 3: Khởi động Ollama Daemon

Ollama chạy như một service. Để khởi động nó:

ollama serve

Chạy lệnh này ở background (sử dụng & hoặc screen/tmux). Trong home lab, bạn có thể thiết lập systemd service cho tự khởi động:

Tạo file /etc/systemd/system/ollama.service:

[Unit]
Description=Ollama Service
After=network.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=your_username
Restart=always
RestartSec=3

[Install]
WantedBy=multi-user.target

Thay your_username bằng user của bạn. Sau đó:

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

Bây giờ, Ollama chạy liên tục.

Bước 4: Kiểm tra cài đặt

Chạy ollama list để xác nhận. Nếu chưa có mô hình, danh sách sẽ trống – chúng ta sẽ tải ở phần sau.

Cách sử dụng cơ bản

Với Ollama đã cài, hãy học cách quản lý và chạy mô hình. Chúng ta sẽ dùng Llama 3 làm ví dụ – một mô hình phổ biến, cân bằng giữa kích thước và hiệu suất.

Pull (tải) mô hình AI

Để tải Llama 3 (phiên bản 8B mặc định):

ollama pull llama3

Lệnh này tải từ Ollama registry. Nếu muốn phiên bản khác (như llama3:70b), chỉ định ollama pull llama3:70b. Quá trình có thể mất vài phút tùy mạng và kích thước (8B khoảng 4.7GB).

Run (chạy) mô hình AI

Để tương tác với mô hình qua terminal:

ollama run llama3

Bạn sẽ vào chế độ chat. Gõ câu hỏi như “What is a home lab?” và nhấn Enter. Để thoát, gõ /bye. Ollama sẽ sử dụng GPU nếu có, hoặc CPU.

List (liệt kê) mô hình AI

Để xem tất cả mô hình đã tải:

ollama list

Nó sẽ hiển thị tên, kích thước và ID.

Rm (xóa) mô hình AI

Nếu cần giải phóng không gian, xóa mô hình:

ollama rm llama3

Xác nhận và nó sẽ xóa. Lưu ý: Pull lại nếu cần sau.

Mẹo thực hành: Để tích hợp nâng cao, dùng API của Ollama tại http://localhost:11434. Ví dụ, curl để generate text:

curl http://localhost:11434/api/generate -d '{"model": "llama3", "prompt": "Hello!"}'

Điều này mở ra cửa cho các ứng dụng home lab như chatbot web.

Chúc mừng! Bạn đã cài đặt và chạy Ollama thành công trong home lab. Công cụ này mở ra thế giới LLM cục bộ, từ thí nghiệm cá nhân đến tích hợp tự động hóa. Mình khuyên bạn khám phá thêm bằng cách thử các mô hình khác, tích hợp với Docker, hoặc xây dựng API cho dự án. Nếu gặp vấn đề, kiểm tra docs tại ollama.com hoặc cộng đồng GitHub. Home lab của bạn giờ mạnh mẽ hơn bao giờ hết – hãy tận dụng để sáng tạo. Nếu bạn có câu hỏi, comment bên dưới. Happy hacking!