Google ra mắt Gemma 4: model mã nguồn mở Apache 2.0, xếp #3 thế giới, chạy được từ điện thoại đến laptop

Bài viết này do AI tạo ra, có thể mắc sai sót.

Tóm tắt nhanh

🔹 Google DeepMind ra mắt Gemma 4 — dòng model mã nguồn mở mạnh nhất của Google, xây trên cùng công nghệ với Gemini 3, phát hành dưới giấy phép Apache 2.0
🔹 4 kích thước: E2B, E4B (chạy trên điện thoại/IoT), 26B MoE và 31B Dense (chạy trên GPU tiêu dùng đến H100) — model 31B xếp hạng #3 open model thế giới trên Arena AI
🔹 Hỗ trợ native: vision, audio, function-calling, JSON output, context lên tới 256K token, 140+ ngôn ngữ — tất cả miễn phí, tự host, không phụ thuộc cloud

Phân tích

Hiệu năng: model nhỏ đánh bại model lớn gấp 20 lần

Điểm ấn tượng nhất của Gemma 4 không phải kích thước mà là intelligence-per-parameter — hiệu năng trên mỗi tham số. Model 31B Dense xếp #3 trên bảng xếp hạng Arena AI (text), model 26B MoE xếp #6, cả hai đều vượt qua nhiều model có kích thước gấp 20 lần.

Với developer, điều này có nghĩa: bạn có thể chạy model cấp frontier trên GPU tiêu dùng (RTX 4090, Mac Studio) thay vì phải thuê cluster H100. Phiên bản quantized của 31B chạy được trên laptop gaming — biến máy tính cá nhân thành AI code assistant offline.

4 kích thước, 4 mục đích sử dụng

31B Dense: chất lượng cao nhất, phù hợp fine-tune và nghiên cứu. Chạy trên 1 GPU H100 (bfloat16) hoặc GPU tiêu dùng (quantized). Mạnh về reasoning, coding, math.
26B MoE (Mixture of Experts): chỉ kích hoạt 3.8B tham số mỗi lần inference → tốc độ token/giây rất cao. Phù hợp ứng dụng cần latency thấp mà vẫn giữ chất lượng gần 31B.
E4B (Effective 4B): chạy offline trên điện thoại, Raspberry Pi, Jetson Orin Nano. Hỗ trợ vision + audio input. Tiết kiệm RAM và pin.
E2B (Effective 2B): nhỏ nhất, tối ưu cho IoT và thiết bị siêu nhẹ. Vẫn hỗ trợ multimodal (ảnh, video, audio).

Tính năng nổi bật chi tiết

Advanced Reasoning: cải thiện lớn về multi-step planning, logic nhiều bước, math và instruction-following — không chỉ chat mà xử lý được workflow phức tạp.
Agentic Workflows: hỗ trợ native function-calling, structured JSON output và system instructions — xây agent tự động gọi API, thực thi workflow mà không cần hack prompt.
Code Generation: biến workstation thành AI code assistant local-first, hỗ trợ offline hoàn toàn. Tích hợp sẵn Agent Mode trong Android Studio.
Vision + Audio: tất cả model đều xử lý được video và ảnh (variable resolution), mạnh về OCR và đọc biểu đồ. E2B và E4B còn hỗ trợ audio input cho speech recognition.
Context Window: E2B/E4B: 128K token. 26B/31B: lên tới 256K token — đủ để đưa cả repository hoặc tài liệu dài vào 1 prompt.
140+ ngôn ngữ: trained native trên hơn 140 ngôn ngữ, không phải fine-tune thêm cho đa ngôn ngữ.

Apache 2.0 — mã nguồn mở thật sự

Đây là thay đổi lớn so với Gemma trước (dùng giấy phép riêng của Google). Apache 2.0 nghĩa là:

Dùng thương mại tự do, không cần xin phép
Tự host, tự fine-tune, tự deploy — toàn quyền kiểm soát dữ liệu và hạ tầng
Không ràng buộc phải dùng Google Cloud

Hugging Face xác nhận hỗ trợ Gemma 4 ngay ngày đầu. Hệ sinh thái day-one còn có: Ollama, vLLM, llama.cpp, MLX, NVIDIA NIM, LM Studio, Unsloth, SGLang, Docker, Keras và nhiều nữa.

Hệ sinh thái triển khai rộng

Thử ngay: Google AI Studio (31B, 26B), AI Edge Gallery (E4B, E2B)
Download: Hugging Face, Kaggle, Ollama
Fine-tune: Google Colab, Vertex AI, hoặc GPU gaming cá nhân
Production: Vertex AI, Cloud Run, GKE, Sovereign Cloud
Hardware: tối ưu cho NVIDIA (từ Jetson Orin Nano đến Blackwell), AMD ROCm, Google TPU (Trillium, Ironwood)
Mobile: Android AICore Developer Preview, ML Kit GenAI Prompt API — tương thích forward với Gemini Nano 4

Con số ấn tượng từ cộng đồng

Kể từ thế hệ đầu tiên, Gemma đã được download hơn 400 triệu lần, tạo ra hơn 100.000 biến thể (Gemmaverse). Các ứng dụng nổi bật: INSAIT tạo model tiếng Bulgaria (BgGPT), Yale University dùng Gemma cho nghiên cứu phát hiện liệu pháp ung thư mới.

Vì sao đáng chú ý?

Gemma 4 đánh dấu lần đầu Google phát hành model mã nguồn mở dưới Apache 2.0 với hiệu năng cạnh tranh trực tiếp top 3 thế giới. Với 4 kích thước từ IoT đến workstation, hỗ trợ vision/audio/agent native và hệ sinh thái triển khai rộng nhất hiện tại, Gemma 4 là lựa chọn mạnh cho developer muốn chạy AI local mà không phụ thuộc API trả phí. Cuộc đua model mã nguồn mở giữa Google (Gemma), Meta (Llama), DeepSeek và Qwen đang nóng hơn bao giờ hết — và người hưởng lợi lớn nhất là developer.