
Llama 3: Đánh giá và hướng dẫn sử dụng AI mã nguồn mở từ Meta
Meta đã phát hành Llama 3 vào tháng 4/2024, đánh dấu một bước tiến lớn trong thế giới AI mã nguồn mở. Với hiệu suất gần bằng GPT-4 và hoàn toàn miễn phí, Llama 3 đang thay đổi cuộc chơi. Bài viết này sẽ hướng dẫn bạn cách sử dụng Llama 3.
Nội dung chính
Llama 3 là gì?
Llama 3 là large language model mã nguồn mở từ Meta, có hai phiên bản chính:
- Llama 3 8B – 8 tỷ parameters, phù hợp cho local deployment
- Llama 3 70B – 70 tỷ parameters, hiệu suất gần GPT-4
So sánh với các model khác
| Model | MMLU | HumanEval | License |
|---|---|---|---|
| GPT-4 | 86.4% | 67% | Closed |
| Claude 3 Opus | 86.8% | 84.9% | Closed |
| Llama 3 70B | 82% | 81.7% | Open |
| Llama 3 8B | 68.4% | 62.2% | Open |
Cài đặt với Ollama
Cách đơn giản nhất để chạy Llama 3 locally là dùng Ollama:
# Cài đặt Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Download và chạy Llama 3 8B
ollama run llama3
# Hoặc Llama 3 70B (cần ~40GB VRAM)
ollama run llama3:70bYêu cầu phần cứng
- Llama 3 8B: 8GB VRAM (GPU) hoặc 16GB RAM (CPU)
- Llama 3 70B: 40GB+ VRAM hoặc 64GB+ RAM
Sử dụng với Python
from ollama import Client
client = Client()
# Chat đơn giản
response = client.chat(
model='llama3',
messages=[
{'role': 'user', 'content': 'Explain Python decorators'}
]
)
print(response['message']['content'])
# Streaming
for chunk in client.chat(
model='llama3',
messages=[{'role': 'user', 'content': 'Write a haiku about coding'}],
stream=True
):
print(chunk['message']['content'], end='', flush=True)API tương thích OpenAI
Ollama cung cấp API tương thích OpenAI, dễ dàng migrate code:
from openai import OpenAI
# Trỏ đến Ollama local server
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Không cần key thực
)
response = client.chat.completions.create(
model="llama3",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
]
)
print(response.choices[0].message.content)Fine-tuning Llama 3
Bạn có thể fine-tune Llama 3 cho domain cụ thể:
# Sử dụng Unsloth cho efficient fine-tuning
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/llama-3-8b",
max_seq_length=2048,
load_in_4bit=True,
)
# Thêm LoRA adapters
model = FastLanguageModel.get_peft_model(
model,
r=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
lora_alpha=16,
lora_dropout=0,
)
# Training với dataset của bạn
trainer = SFTTrainer(
model=model,
train_dataset=dataset,
# ...
)Use Cases thực tế
1. Local AI Assistant
Chạy chatbot riêng mà không lo về privacy:
ollama run llama3 "Summarize this document: [paste content]"2. Code Generation
Llama 3 Code variants cho coding tasks:
ollama run codellama "Write a Python function to parse JSON"3. Document Q&A với RAG
Kết hợp Llama 3 với vector database cho enterprise search.
So sánh với GPT-4 API
| Tiêu chí | Llama 3 (Local) | GPT-4 (API) |
|---|---|---|
| Chi phí | $0 (điện) | $30/1M output tokens |
| Privacy | 100% local | Data đi qua OpenAI |
| Latency | Phụ thuộc hardware | ~1-2s |
| Quality | 90% GPT-4 | Benchmark leader |
| Internet | Không cần | Cần |
Fullstack Station Tips
Llama 3 là game-changer cho AI open source. Những use cases mình thấy phù hợp nhất:
- Startup nhỏ – Tiết kiệm chi phí API
- Enterprise với data nhạy cảm – Không lo data leakage
- Offline environments – Chạy không cần internet
- Learning AI – Thử nghiệm không giới hạn
Với những tasks cần accuracy cao nhất (legal, medical), vẫn nên dùng GPT-4 hoặc Claude. Nhưng với 90% use cases thông thường, Llama 3 là đủ tốt và hoàn toàn miễn phí.
