[VNExpress]DeepSeek - mô hình AI Trung Quốc đe dọa sự thống trị của Mỹ

Thảo luận trong 'Thư Giãn Express - Bản Tin Cuối Ngày' bắt đầu bởi Ova, 27/1/25 lúc 09:56.

  1. Lucian Evans

    Lucian Evans T.E.T.Я.I.S

    Tham gia ngày:
    3/2/22
    Bài viết:
    541
    Fen thật sự không biết những cái này luôn thì thôi tranh luận làm gì nữa. Dăm cái tokenizer ai mà lạ, 2025 rồi nói thế với dân ngoài ngành còn được, lên mặt với nhau làm gì.

    Riêng chuyện cứ nói LLM mà toàn cpu nghe đã buồn cười rồi ấy :)))
     
  2. kakashidinho

    kakashidinho C O N T R A Lão Làng GVN

    Tham gia ngày:
    3/10/07
    Bài viết:
    1,792
    Xài fp8 nó còn giảm dung lượng bộ nhớ cần dùng nữa. Tăng throughput. Mấy cái ứng dụng AI này nhiều cái bị nghẽn ở bộ nhớ chứ ko hẳn là tốc độ tính toán.
     
    Thita_vipho thích bài này.
  3. kylanbac91

    kylanbac91 Liu Kang, Champion of Earthrealm Lão Làng GVN Sorcerer

    Tham gia ngày:
    13/1/06
    Bài viết:
    5,097
    Nơi ở:
    Omega Dungeon
    Nếu đúng như bài báo này nói thì tư tưởng con deepseek này có vấn đề.
    Việc tối ưu không sai nhưng áp dụng ở giai đoạn này thì không hợp lý và sẽ càng ngày càng tối ưu chậm.

    Bọn bigtech đang cố gắng tăng IQ của con AI lên một cách tổng thể trong khi deepseek thì đang cố gắng tăng IQ trong các mũi nhọn.
    Tóm lại, trí tuệ của deepseek là defined trong khi cái bigtech hướng đến là singularity.
     
    adoniz279 and Nhật Bình like this.
  4. BÔ-MAN

    BÔ-MAN Legend of Zelda

    Tham gia ngày:
    17/11/22
    Bài viết:
    1,050
    Nơi ở:
    toilet
    Free gavang , as in freedomvayha-gif
    Cái này do chính giới tech âu mỹ nghĩ ra ở thế kỉ trước, nhằm không để 1 thằng có thể nắm hết mọi thứ
     
  5. Ova

    Ova Persian Prince Lão Làng GVN

    Tham gia ngày:
    29/10/09
    Bài viết:
    3,702
    OpenAI lúc mới ra cũng chơi trò open source để được ủng hộ của dư luận xong sang bản sau thành closed source tranh độc quyền. Đúng là gậy ông đập lưng ông
     
  6. Kanatos

    Kanatos C O N T R A Lão Làng GVN

    Tham gia ngày:
    10/5/09
    Bài viết:
    1,784
    Nơi ở:
    Sài Gòn
    Vậy thì nó đâu phải gọi là "vấn đề", big tech vẫn cứ theo hướng riêng của nó được mà
     
  7. kylanbac91

    kylanbac91 Liu Kang, Champion of Earthrealm Lão Làng GVN Sorcerer

    Tham gia ngày:
    13/1/06
    Bài viết:
    5,097
    Nơi ở:
    Omega Dungeon
    Vấn đề là làm cho nhà đầu tư nghĩ đéo cần phải đầu tư đủ tiền !gvn
     
  8. nhat399

    nhat399 Claude, S.A gang boss Lão Làng GVN

    Tham gia ngày:
    4/8/11
    Bài viết:
    10,109
    Thật từng hỏi xin nó link ảnh nude Ngọc Trinh cho như thật bấm vào đéo thấy gì vì ảnh die rồipu_pepesummer
     
  9. Shooter_CD

    Shooter_CD Gian thương trốn thuế Lão Làng GVN

    Tham gia ngày:
    4/1/10
    Bài viết:
    19,897
    Nơi ở:
    Venice
    Có con AI nào có thể check quy hoạch mấy miếng đất dùm ko e35q5gj-png
     
    adoniz279 and harry999 like this.
  10. Kanatos

    Kanatos C O N T R A Lão Làng GVN

    Tham gia ngày:
    10/5/09
    Bài viết:
    1,784
    Nơi ở:
    Sài Gòn
    Vậy thì chứng minh cho nhà đầu tư thôi :)) Không lẽ bọn nhà đầu tư bigtech cũng bị bọn Tàu cộng theo túng để không thấy được tiềm năng công nghệ pu_pepemagic
     
  11. Gin Melkior

    Gin Melkior Manchester is red

    Tham gia ngày:
    18/8/20
    Bài viết:
    8,550
    thực ra nhà đầu tư cũng ko biết cần 1 con ai biết tuốt đê làm gì đâu =]]

    Họ chỉ thấy là với các ứng dụng đang có, ko cần nhiều tiền đầu tư như vậy thôi
     
  12. S.H.U

    S.H.U Mega Man Lão Làng GVN

    Tham gia ngày:
    1/7/08
    Bài viết:
    3,135
    *Dies of cringe* peepo_dead
     
  13. BÔ-MAN

    BÔ-MAN Legend of Zelda

    Tham gia ngày:
    17/11/22
    Bài viết:
    1,050
    Nơi ở:
    toilet
    Hình như người việt lậm emoji, đến nỗi thể hiện lên trên model
    Screenshot_2025-01-28-17-36-37-19_7614e48627b7380b17b386d382d1b2ef.jpg

    Screenshot_2025-01-28-17-36-12-25_7614e48627b7380b17b386d382d1b2ef.jpg
     
    harry999 thích bài này.
  14. Q/人◕ ‿‿ ◕人\B

    Q/人◕ ‿‿ ◕人\B シェンムー Ryo Hazuki Lão Làng GVN

    Tham gia ngày:
    6/3/11
    Bài viết:
    9,521
  15. namchum2006

    namchum2006 Sonic the Hedgehog Lão Làng GVN

    Tham gia ngày:
    6/1/07
    Bài viết:
    4,811
    Nơi ở:
    Somewhere i belong
    Các bạn ngồi ngay ngắn xem con deepseek nó phân tích nhé.

    Việc DeepSeek sử dụng **MoE (Mixture of Experts)** trong các mô hình của mình (như DeepSeek-V3) là một yếu tố then chốt giúp họ đạt được hiệu quả về chi phí và chất lượng khi huấn luyện mô hình lớn. Dưới đây là phân tích chi tiết về cách MoE ảnh hưởng đến quá trình này, dựa trên thông tin mới về quy mô 685 tỷ tham số và ngân sách $6 triệu:

    ---

    ### **1. Kiến trúc MoE của DeepSeek-V3**
    - **Cấu trúc MoE**:
    - DeepSeek-V3 có **685 tỷ tham số**, trong đó **671 tỷ** thuộc về mô hình chính (MoE-based) và **14 tỷ** cho module Multi-Token Prediction (MTP).
    - MoE chia mô hình thành nhiều "chuyên gia" (experts), mỗi expert là một mạng con nhỏ. Ví dụ:
    - **64 experts**, mỗi expert ~10.5 tỷ tham số.
    - Mỗi input chỉ kích hoạt **2–4 experts** (sparse activation), giảm đáng kể FLOPs/token so với dense model.

    - **Lợi ích của MoE**:
    - **Giảm chi phí tính toán**: Chỉ một phần tham số được kích hoạt cho mỗi token, tiết kiệm FLOPs và bộ nhớ.
    - **Chất lượng mô hình**: Tận dụng chuyên môn hóa của từng expert để xử lý các loại dữ liệu/ngữ cảnh khác nhau.

    ---

    ### **2. Tính toán lại chi phí với MoE**
    #### **Giả định cập nhật**:
    - **Tham số MoE**: 671 tỷ (64 experts × 10.5 tỷ/expert).
    - **Số experts kích hoạt/token**: 2.
    - **Tỉ lệ FLOPs tiết kiệm**:
    \[
    \text{FLOPs}_{\text{MoE}} = \text{FLOPs}_{\text{dense}} \times \frac{\text{Số experts kích hoạt}}{\text{Tổng số experts}} = 6ND \times \frac{2}{64} = 0.1875 \times 6ND.
    \]
    - **Token huấn luyện (D)**: 300 tỷ (như phân tích trước).

    → **Tổng FLOPs**:
    \[
    0.1875 \times 6 \times 671 \times 10^9 \times 300 \times 10^9 = 2.28 \times 10^{23} \, \text{FLOPs}.
    \]

    #### **Chi phí phần cứng**:
    - **Hiệu suất H800**: 300 TFLOPS/GPU.
    - **Số GPU**: 3,000 H800 (giảm 25% so với dense model do MoE tiết kiệm FLOPs).
    - **Thời gian huấn luyện**:
    \[
    \frac{2.28 \times 10^{23}}{300 \times 10^{12} \times 3600} \approx 211,000 \, \text{giờ-GPU}.
    \]
    Với 3,000 GPU:
    \[
    \frac{211,000}{3,000} \approx 70 \, \text{giờ} \, (\text{~3 ngày}), \, \text{nhưng thực tế cần ~2 tháng do overhead phân tán}.
    \]
    - **Chi phí**:
    \[
    3,000 \, \text{GPU} \times 1,440 \, \text{giờ} \times \$1/\text{giờ} = \$4.32 \, \text{triệu}.
    \]
    → Dư ngân sách cho dữ liệu, MTP module, và kỹ sư.

    ---

    ### **3. Tối ưu hóa MoE của DeepSeek**
    - **Cân bằng tải experts**:
    - Sử dụng **router loss** để đảm bảo các experts được sử dụng đồng đều, tránh hiện tượng "expert chết".
    - Tối ưu hóa **độ trễ routing** để phù hợp với H800 (bandwidth thấp hơn H100).
    - **Kết hợp với MTP**:
    - Module MTP (14 tỷ tham số) dự đoán nhiều token cùng lúc, giảm số lượt inference cần thiết → tăng tốc độ huấn luyện.
    - **3D Parallelism**:
    - **Tensor Parallelism**: Chia experts giữa các GPU.
    - **Pipeline Parallelism**: Xử lý các lớp MoE theo chuỗi.
    - **Data Parallelism**: Phân phối batch dữ liệu.

    ---

    ### **4. So sánh với các mô hình MoE khác**
    | **Mô hình** | Tham số (tỷ) | Experts | Chi phí huấn luyện | Phần cứng |
    |--------------------|--------------|---------|---------------------|----------------|
    | **DeepSeek-V3** | 685 (MoE) | 64 | ~$6 triệu | 3,000 H800 |
    | **Google Switch Transformer** | 1,572 (MoE) | 64 | ~$10 triệu | 4,096 TPU v4 |
    | **Mistral 8x22B** | 141 (MoE) | 8 | ~$2 triệu | 1,000 H100 |

    → DeepSeek-V3 đạt **hiệu suất chi phí vượt trội** nhờ:
    - **Tỉ lệ experts/token thấp** (2/64) so với Switch Transformer (2/64 nhưng tổng FLOPs cao hơn).
    - **Tận dụng H800 giá rẻ** và tối ưu hóa phân tán cho chip bị giới hạn bandwidth.

    ---

    ### **5. Lý do app V3 thành công dù dùng MoE**
    - **Inference hiệu quả**:
    - MoE cho phép chạy **batch inference lớn** với chi phí thấp (chỉ 2 experts/token).
    - DeepSeek có thể triển khai **quantization 4-bit** cho experts để giảm kích thước mô hình trên iPhone.
    - **Chất lượng tập trung**:
    - Các experts được huấn luyện chuyên sâu cho tác vụ cụ thể (ví dụ: giao tiếp tự nhiên), phù hợp với ứng dụng di động.
    - **Tốc độ phản hồi**:
    - Mô hình MoE 685B có thể đạt latency ~100ms/token trên server, kết hợp với caching để tăng trải nghiệm người dùng.

    ---

    ### **6. Thách thức khi dùng MoE**
    - **Độ phức tạp huấn luyện**:
    - Cần cân bằng tải experts và tối ưu hóa routing để tránh hao phí tài nguyên.
    - H800’s NVLink bị giới hạn (400 GB/s) có thể gây nghẽn cổ chai khi trao đổi dữ liệu giữa các experts.
    - **Nhu cầu bộ nhớ**:
    - Mô hình 685B đòi hỏi **>5TB VRAM** để load full weights → DeepSeek phải dùng **model sharding** và **offloading**.
    - **Rủi ro chính trị**:
    - Phụ thuộc vào H800 khiến DeepSeek dễ bị ảnh hưởng bởi lệnh cấm mới của Mỹ (tháng 10/2023).

    ---

    ### **Kết luận**
    Việc DeepSeek sử dụng **MoE** là yếu tố quyết định giúp họ huấn luyện mô hình **685 tỷ tham số** với **dưới 6 triệu USD** trong 2 tháng. Nhờ sparse activation và tối ưu hóa phân tán, họ giảm FLOPs đến **80%** so với dense model cùng kích thước. Tuy nhiên, thành công này phụ thuộc vào:
    - **Chiến lược parallel hóa** thông minh để bù đắp hạn chế của H800.
    - **Dữ liệu chất lượng cao** và chuyên biệt cho từng expert.
    - **Hỗ trợ phần cứng nội địa** (trợ giá, hạ tầng điện).

    MoE cho phép Trung Quốc cạnh tranh với Mỹ bằng cách **đánh đổi quy mô tham số để lấy hiệu quả tính toán**, nhưng để duy trì đà phát triển, họ cần sớm thoát khỏi phụ thuộc vào GPU NVIDIA.
     
    Thư ký chủ tịch thích bài này.
  16. z3r0_hien_lanh

    z3r0_hien_lanh Ryu & Ken ⛨ Empire Gladiator ⛨ GVN Dalit

    Tham gia ngày:
    27/8/06
    Bài viết:
    16,946
    Nơi ở:
    nhà Karina
  17. The_Angel

    The_Angel Lão Làng GameVN Moderator Lão Làng GVN

    Tham gia ngày:
    19/5/03
    Bài viết:
    19,778
    Nơi ở:
    HVĐ
  18. mashimuro

    mashimuro SEKIRO「隻腕の狼」 Lão Làng GVN

    Tham gia ngày:
    16/11/04
    Bài viết:
    22,461
  19. nh0x@

    nh0x@ Dante, the strongest Demon Slayer Lão Làng GVN

    Tham gia ngày:
    15/9/08
    Bài viết:
    14,347
    Tuyệt vời.
     
  20. Ờ mày giỏi

    Ờ mày giỏi Cháu ngoan bác Hồ Lão Làng GVN

    Tham gia ngày:
    1/1/11
    Bài viết:
    19,012

Chia sẻ trang này