Công nghệ Machine learning
figonkingx  

DeepSeek R1: AI mã nguồn mở từ Trung Quốc gây chấn động

DeepSeek R1 từ Trung Quốc đã gây chấn động cộng đồng AI khi ra mắt vào tháng 1/2025. Với hiệu năng ngang GPT-4 và Claude nhưng hoàn toàn mã nguồn mở, DeepSeek đang thay đổi cuộc chơi. Bài viết này phân tích chi tiết mô hình này.

Nội dung chính

DeepSeek là gì?

DeepSeek là công ty AI từ Trung Quốc, được thành lập bởi cựu nhân viên của các tập đoàn công nghệ lớn. DeepSeek R1 là mô hình hàng đầu của họ:

  • Số tham số: 671 tỷ (kiến trúc hỗn hợp chuyên gia)
  • Tham số hoạt động: Khoảng 37 tỷ mỗi lần suy luận
  • Ngữ cảnh: 128.000 token
  • Giấy phép: MIT (hoàn toàn mã nguồn mở)
  • Huấn luyện: Học tăng cường từ đầu

Kết quả kiểm tra

Bài kiểm traDeepSeek R1GPT-4Claude 3 Opus
MMLU (kiến thức)90,8%86,4%86,8%
MATH (toán học)97,3%52,9%60,1%
HumanEval (lập trình)96,3%67%84,9%
Codeforces (thi đấu)96,3%Không cóKhông có

Đặc biệt ấn tượng: Kết quả toán học và lập trình vượt trội so với GPT-4!

Cách sử dụng DeepSeek

1. API (Rẻ nhất)

from openai import OpenAI

client = OpenAI(
    api_key="khoa-deepseek-cua-ban",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-reasoner",  # Mô hình R1
    messages=[
        {"role": "user", "content": "Giải bài toán này: ..."}
    ]
)
print(response.choices[0].message.content)

Giá: 14.000đ/1 triệu token đầu vào, 55.000đ/1 triệu token đầu ra (rẻ hơn GPT-4 khoảng 10 lần!)

2. Ollama (Chạy cục bộ)

# Cài đặt
curl -fsSL https://ollama.com/install.sh | sh

# Chạy các phiên bản rút gọn
ollama run deepseek-r1:7b    # Phiên bản 7 tỷ, ~5GB
ollama run deepseek-r1:14b   # Phiên bản 14 tỷ, ~9GB
ollama run deepseek-r1:32b   # Phiên bản 32 tỷ, ~20GB
ollama run deepseek-r1:70b   # Phiên bản 70 tỷ, ~40GB

# Trò chuyện
>>> Giải thích điện toán lượng tử bằng ngôn ngữ đơn giản

3. vLLM (Máy chủ sản phẩm)

# Phục vụ với vLLM
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --tensor-parallel-size 2 \
    --port 8000

# Máy khách
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")

4. Hugging Face Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

ten_mo_hinh = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B"
tokenizer = AutoTokenizer.from_pretrained(ten_mo_hinh)
model = AutoModelForCausalLM.from_pretrained(
    ten_mo_hinh,
    torch_dtype="auto",
    device_map="auto"
)

dau_vao = tokenizer("Xin chào, bạn khỏe không?", return_tensors="pt").to(model.device)
dau_ra = model.generate(**dau_vao, max_new_tokens=100)
print(tokenizer.decode(dau_ra[0]))

Khả năng suy luận

DeepSeek R1 nổi bật với khả năng suy luận, sử dụng chuỗi suy nghĩ tự nhiên:

# Ví dụ: Bài toán
Người dùng: Nếu tàu đi với tốc độ 60 km/h trong 2 giờ, rồi 80 km/h trong 1,5 giờ, 
tổng quãng đường là bao nhiêu?

DeepSeek R1:
<suy_nghi>
Để mình chia nhỏ bài toán từng bước.

Chặng đầu tiên:
- Tốc độ: 60 km/h
- Thời gian: 2 giờ
- Quãng đường = Tốc độ × Thời gian = 60 × 2 = 120 km

Chặng thứ hai:
- Tốc độ: 80 km/h
- Thời gian: 1,5 giờ
- Quãng đường = 80 × 1,5 = 120 km

Tổng quãng đường = 120 + 120 = 240 km
</suy_nghi>

Tổng quãng đường đã đi là 240 km.

Các phiên bản rút gọn

DeepSeek cung cấp các phiên bản nhỏ hơn đã được tối ưu:

Mô hìnhKích thướcVRAMPhù hợp cho
DeepSeek-R1-Distill-Qwen-1.5B1,5 tỷ~3GBThiết bị biên
DeepSeek-R1-Distill-Qwen-7B7 tỷ~5GBPhát triển cục bộ
DeepSeek-R1-Distill-Qwen-14B14 tỷ~9GBCân bằng
DeepSeek-R1-Distill-Qwen-32B32 tỷ~20GBƯu tiên chất lượng
DeepSeek-R1-Distill-Llama-70B70 tỷ~40GBGần đầy đủ

So sánh với đối thủ

DeepSeek so với GPT-4

  • Toán/Lập trình: DeepSeek R1 tốt hơn
  • Kiến thức chung: GPT-4 rộng hơn
  • Giá: DeepSeek rẻ hơn 10 lần
  • Riêng tư: DeepSeek có thể chạy cục bộ

DeepSeek so với Claude

  • Suy luận: Tương đương
  • An toàn: Claude có nhiều rào cản hơn
  • Ngữ cảnh: Cả hai đều 128.000+
  • Mã nguồn mở: DeepSeek thắng

Hạn chế

  • Giới hạn kiến thức: Dữ liệu huấn luyện có thể có thiên lệch
  • Tập trung tiếng Trung: Tốt hơn với nội dung tiếng Trung
  • An toàn: Ít rào cản hơn các mô hình phương Tây
  • Đa phương thức: Chưa có khả năng xử lý hình ảnh

Trường hợp sử dụng

  • Lập trình: Xuất sắc trong tạo code, gỡ lỗi
  • Toán học: Giải bài, dạy kèm
  • Nghiên cứu: Phân tích tài liệu, tóm tắt
  • Tiết kiệm chi phí: Thay thế GPT-4 rẻ hơn
  • Riêng tư: Triển khai cục bộ

Lời khuyên từ Fullstack Station

DeepSeek R1 là bước ngoặt cho AI mã nguồn mở:

  • Thử ngay: API rẻ, không có lý do gì để không thử
  • Tác vụ toán/lập trình: Có thể tốt hơn GPT-4
  • Triển khai cục bộ: Phiên bản 7B/14B rất thực dụng
  • Sản phẩm: Xem xét kết hợp với GPT-4

Năm 2025 sẽ là năm AI mã nguồn mở thực sự cạnh tranh với các mô hình đóng. DeepSeek R1 là minh chứng.

Tham khảo

Comments

Leave A Comment