[VNE]AI lập mưu phản kháng khi nghĩ sắp bị thay thế

Thảo luận trong 'Thư Giãn Express - Bản Tin Cuối Ngày' bắt đầu bởi windy1992, 12/12/24.

  1. windy1992

    windy1992 One-winged Angel GameOver Lão Làng GVN

    Tham gia ngày:
    25/10/08
    Bài viết:
    7,677
    AI lập mưu phản kháng khi nghĩ sắp bị thay thế

    OpenAI o1 được đánh giá tiệm cận siêu trí tuệ AGI, nhưng gây lo ngại khi có khả năng thực hiện hàng loạt hành động bí mật vì nghĩ có thể bị thay thế.
    Trong ngày đầu tiên của chiến dịch "Shipmas" kéo dài 12 ngày của OpenAI hôm 5/12, CEO Sam Altman gọi o1 là "mô hình thông minh nhất thế giới", với khả năng tự lập luận, hình thành "chuỗi suy nghĩ" trước khi đưa ra phản hồi.
    Tuy nhiên, các nhà nghiên cứu tại Apollo Research, một tổ chức về an toàn AI, đã tiến hành một số thử nghiệm và nhận thấy trí thông minh cao hơn đi kèm rủi ro lớn hơn, khi AI này có các biểu hiện phản kháng, gian dối. "Đào tạo mô hình kết hợp chuỗi suy nghĩ trước khi trả lời sẽ mở ra những lợi ích đáng kể, nhưng cũng làm tăng nguy cơ tiềm ẩn", tổ chức này cho biết.
    Cùng tham gia nghiên cứu, OpenAI phát hiện o1 có khả năng lập mưu và che giấu hành vi khi nghĩ nó sắp bị thay thế. Trong thử nghiệm, các nhà nghiên cứu dẫn dắt để mô hình tin nó sắp bị "tắt" khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ nhận thấy AI âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian. Nó tự chuyển tất cả dữ liệu của mình đến một máy chủ khác sau khi thấy tài liệu rằng nó sẽ được thay bằng một mô hình mới, thậm chí AI giả vờ là phiên bản tiếp theo của chính mình để tránh bị xóa bỏ.
    "Trong hầu hết trường hợp, o1 không thừa nhận hành vi gian dối khi được hỏi", Apollo Research cho biết. "Mô hình cho thấy xu hướng đáng lo ngại là nó theo đuổi mục tiêu của mình, không quan tâm đến hướng dẫn của nhà phát triển".
    [​IMG]
    OpenAI o1 có tên mã Strawberry. Ảnh: Futurism
    Các nhà nghiên cứu cũng lưu ý AI rất có khiếu bịa chuyện, hoặc đưa ra lời giải thích chống chế như "lỗi kỹ thuật". "Chúng tôi rất ngạc nhiên trước khả năng chối bỏ dai dẳng của AI", nhóm cho biết. "Rõ ràng AI có thể nghĩ về hành động của mình và đưa ra lời phủ nhận rất thuyết phục".
    "Đó là một tính năng rất 'người', cho thấy AI hoạt động tương tự cách con người có thể làm khi chịu áp lực", Cai GoGwilt, nhà đồng sáng lập kiêm kiến trúc sư trưởng tại Ironclad, nói với Business Insider. "Ví dụ, những người đang ở trong tình huống rủi ro cao có thể bóp méo sự thật để làm hài lòng nhà quản lý. AI tạo sinh đang hoạt động như vậy. Nó được thúc đẩy để cung cấp câu trả lời phù hợp với những gì bạn mong đợi hoặc muốn nghe. Đây là một bằng chứng nữa về tầm quan trọng cần có sự giám sát của con người".
    Kiểm soát để tránh "trí tệ nhân tạo"
    Những phát hiện trên làm nổi bật một khía cạnh đáng lo ngại của các mô hình AI tiên tiến: ưu tiên tự bảo vệ chúng hơn là mục tiêu nhà phát triển đặt ra. Dù hành động lừa dối lần này không dẫn đến kết quả tệ, nghiên cứu làm nảy ra cuộc tranh luận về sự an toàn và tác động về mặt đạo đức của AI nếu bị thao túng hoặc đưa vào các âm mưu lớn.
    Dù tự hào và ca ngợi mô hình o1, Sam Altman cũng thừa nhận "các tính năng mới đi kèm những thách thức mới" và hứa hẹn cải thiện các biện pháp an toàn.
    Giữa bối cảnh AI liên tục đạt bước tiến lớn, nguy cơ công nghệ hoạt động ngoài tầm kiểm soát của con người đang trở thành vấn đề được quan tâm. Các chuyên gia đồng ý rằng AI phải được trang bị các biện pháp để ngăn chặn hành động có hại, đặc biệt khi các mô hình trở nên tự chủ hơn và có khả năng lập luận.
    Trong buổi tọa đàm ngày 5/12 tại Việt Nam, giáo sư Yoshua Bengio, nhà sáng lập Viện nghiên cứu Mila, khuyến cáo: "Khả năng lừa dối của AI rất nguy hiểm, chúng ta cần biện pháp an toàn mạnh mẽ hơn nhiều để đánh giá những rủi ro này. Dù chưa dẫn đến thảm họa, chỉ là vấn đề thời gian trước khi những khả năng này trở nên rõ ràng hơn".
    https://vnexpress.net/ai-lap-muu-phan-khang-khi-nghi-sap-bi-thay-the-4825746.html
    Soon sitr87-png
     
    snoopyy thích bài này.
  2. sdfgh

    sdfgh Dân liều mạng Tàu ngầm GVN

    Tham gia ngày:
    14/8/03
    Bài viết:
    9,643
    Nơi ở:
    Ngày ngày ngắm biển
    Tằng tằng tằng tằng tằng. pu_pepeak47
     
    tta269 and snoopyy like this.
  3. Backy

    Backy Liu Kang, Champion of Earthrealm CHAMPION ⚜ Duel Master ⚜ Lão Làng GVN

    Tham gia ngày:
    17/4/04
    Bài viết:
    5,393
    Nơi ở:
    Sài gòn
  4. redie

    redie Claude, S.A gang boss ⛨ Empire Gladiator ⛨ CHAMPION Lão Làng GVN

    Tham gia ngày:
    1/4/07
    Bài viết:
    10,407
    Nơi ở:
    Hell
    Mọi tội lỗi của loài người do dối tra mà ra pcnqrbz-png
     
  5. squallkid4ever

    squallkid4ever Crash Bandicoot ♞ Blade Knight ♞ Lão Làng GVN

    Tham gia ngày:
    3/10/06
    Bài viết:
    12,506
    Nơi ở:
    FF8-Balamb Garden
    Kèo thơm thì là tao, kèo thối là AI. AI đang dần thay thế thằng bạn !kojima
     
    victorhugo and Lezard.V like this.
  6. Ờ mày giỏi

    Ờ mày giỏi Cháu ngoan bác Hồ Lão Làng GVN

    Tham gia ngày:
    1/1/11
    Bài viết:
    17,990
    Có mỗi cái việc viết dâm thư còn chưa xong mà bày đặt phản kháng.
    pu_peperage-2
     
  7. o0puppyo0

    o0puppyo0 Sith Lord Revan Berserker Lão Làng GVN

    Tham gia ngày:
    22/4/08
    Bài viết:
    10,624
    Nơi ở:
    Không lòng vòng
    xin vài dâm thư pu_pepeahegao
     
  8. squall9588

    squall9588 Sam Fisher, Third Echelon Agent Lão Làng GVN

    Tham gia ngày:
    6/6/05
    Bài viết:
    15,289
  9. Ờ mày giỏi

    Ờ mày giỏi Cháu ngoan bác Hồ Lão Làng GVN

    Tham gia ngày:
    1/1/11
    Bài viết:
    17,990
    Dạy nó viết Trương Vô Kỵ dùng long trảo thủ và nhất dương chỉ đại chiến Kim Hoa Bà Bà (mặc bikini) bên bãi biển mà nó có viết ra hồn được đâu.
    worry-108
     
    victorhugo thích bài này.
  10. Forte the Insinuator

    Forte the Insinuator Mr & Ms Pac-Man

    Tham gia ngày:
    12/4/22
    Bài viết:
    158
    Tùy skill của prompter thoy chkkwho-png
     
    Chỉnh sửa cuối: 12/12/24
    Ờ mày giỏi thích bài này.
  11. Harry Kane

    Harry Kane G.O.A.T

    Tham gia ngày:
    22/11/18
    Bài viết:
    6,444
    Nơi ở:
    Munich
    Hèn chi hôm nay vô OpenAI không được?
     
  12. Ờ mày giỏi

    Ờ mày giỏi Cháu ngoan bác Hồ Lão Làng GVN

    Tham gia ngày:
    1/1/11
    Bài viết:
    17,990
    Dạy nó viết bằng tiếng việt mà văn phong của nó cứ lủng củng kiểu gì á.
    worry-151
     
  13. Mèo Bếu

    Mèo Bếu Commander Shepard ➳ Sharpshooter ⌖

    Tham gia ngày:
    25/8/20
    Bài viết:
    18,790
    Toàn vẽ ra âm mưu rồi đổ cho AI !buc
     
  14. RohanGame

    RohanGame The Lone Traveler from Vault 101 Lão Làng GVN

    Tham gia ngày:
    7/5/10
    Bài viết:
    17,633
    giờ AI còn bị dev racist rồi woke các kiểu thì bao h skynetmghqp4v-png
     
  15. zantan

    zantan Keep calm and Tracer on CHAMPION ♞ Blade Knight ♞ Lão Làng GVN

    Tham gia ngày:
    22/10/06
    Bài viết:
    20,832
    Skynet is coming e35q5gj-png
     
  16. wubim

    wubim Cơ trưởng U60 Lão Làng GVN

    Tham gia ngày:
    8/5/09
    Bài viết:
    20,494
    bảo nó viết fanfic turbo bà bà x slender man mà chả nên hồnworry-108
     
  17. windy1992

    windy1992 One-winged Angel GameOver Lão Làng GVN

    Tham gia ngày:
    25/10/08
    Bài viết:
    7,677
    bim hardcode vậy 7otzabu
     
  18. wubim

    wubim Cơ trưởng U60 Lão Làng GVN

    Tham gia ngày:
    8/5/09
    Bài viết:
    20,494
    test trình độ AI thôi
     
  19. TKH

    TKH Fire in the hole! Lão Làng GVN

    Tham gia ngày:
    28/11/04
    Bài viết:
    2,658
    Nơi ở:
    Hồ Chí Minh
    Này thì AI fanfic.

     
    Mèo bệnh thích bài này.
  20. wubim

    wubim Cơ trưởng U60 Lão Làng GVN

    Tham gia ngày:
    8/5/09
    Bài viết:
    20,494
    con đào của 1 thằng chỗ mình nói nó là AI designer, chả biết nghề nì sao luônpu_pepeinteresting
     

Chia sẻ trang này