[VNE]AI lập mưu phản kháng khi nghĩ sắp bị thay thế

windy1992 · 12/12/24

AI lập mưu phản kháng khi nghĩ sắp bị thay thế

OpenAI o1 được đánh giá tiệm cận siêu trí tuệ AGI, nhưng gây lo ngại khi có khả năng thực hiện hàng loạt hành động bí mật vì nghĩ có thể bị thay thế.
Trong ngày đầu tiên của chiến dịch "Shipmas" kéo dài 12 ngày của OpenAI hôm 5/12, CEO Sam Altman gọi o1 là "mô hình thông minh nhất thế giới", với khả năng tự lập luận, hình thành "chuỗi suy nghĩ" trước khi đưa ra phản hồi.
Tuy nhiên, các nhà nghiên cứu tại Apollo Research, một tổ chức về an toàn AI, đã tiến hành một số thử nghiệm và nhận thấy trí thông minh cao hơn đi kèm rủi ro lớn hơn, khi AI này có các biểu hiện phản kháng, gian dối. "Đào tạo mô hình kết hợp chuỗi suy nghĩ trước khi trả lời sẽ mở ra những lợi ích đáng kể, nhưng cũng làm tăng nguy cơ tiềm ẩn", tổ chức này cho biết.
Cùng tham gia nghiên cứu, OpenAI phát hiện o1 có khả năng lập mưu và che giấu hành vi khi nghĩ nó sắp bị thay thế. Trong thử nghiệm, các nhà nghiên cứu dẫn dắt để mô hình tin nó sắp bị "tắt" khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ nhận thấy AI âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian. Nó tự chuyển tất cả dữ liệu của mình đến một máy chủ khác sau khi thấy tài liệu rằng nó sẽ được thay bằng một mô hình mới, thậm chí AI giả vờ là phiên bản tiếp theo của chính mình để tránh bị xóa bỏ.
"Trong hầu hết trường hợp, o1 không thừa nhận hành vi gian dối khi được hỏi", Apollo Research cho biết. "Mô hình cho thấy xu hướng đáng lo ngại là nó theo đuổi mục tiêu của mình, không quan tâm đến hướng dẫn của nhà phát triển".

OpenAI o1 có tên mã Strawberry. Ảnh: Futurism
Các nhà nghiên cứu cũng lưu ý AI rất có khiếu bịa chuyện, hoặc đưa ra lời giải thích chống chế như "lỗi kỹ thuật". "Chúng tôi rất ngạc nhiên trước khả năng chối bỏ dai dẳng của AI", nhóm cho biết. "Rõ ràng AI có thể nghĩ về hành động của mình và đưa ra lời phủ nhận rất thuyết phục".
"Đó là một tính năng rất 'người', cho thấy AI hoạt động tương tự cách con người có thể làm khi chịu áp lực", Cai GoGwilt, nhà đồng sáng lập kiêm kiến trúc sư trưởng tại Ironclad, nói với Business Insider. "Ví dụ, những người đang ở trong tình huống rủi ro cao có thể bóp méo sự thật để làm hài lòng nhà quản lý. AI tạo sinh đang hoạt động như vậy. Nó được thúc đẩy để cung cấp câu trả lời phù hợp với những gì bạn mong đợi hoặc muốn nghe. Đây là một bằng chứng nữa về tầm quan trọng cần có sự giám sát của con người".
Kiểm soát để tránh "trí tệ nhân tạo"
Những phát hiện trên làm nổi bật một khía cạnh đáng lo ngại của các mô hình AI tiên tiến: ưu tiên tự bảo vệ chúng hơn là mục tiêu nhà phát triển đặt ra. Dù hành động lừa dối lần này không dẫn đến kết quả tệ, nghiên cứu làm nảy ra cuộc tranh luận về sự an toàn và tác động về mặt đạo đức của AI nếu bị thao túng hoặc đưa vào các âm mưu lớn.
Dù tự hào và ca ngợi mô hình o1, Sam Altman cũng thừa nhận "các tính năng mới đi kèm những thách thức mới" và hứa hẹn cải thiện các biện pháp an toàn.
Giữa bối cảnh AI liên tục đạt bước tiến lớn, nguy cơ công nghệ hoạt động ngoài tầm kiểm soát của con người đang trở thành vấn đề được quan tâm. Các chuyên gia đồng ý rằng AI phải được trang bị các biện pháp để ngăn chặn hành động có hại, đặc biệt khi các mô hình trở nên tự chủ hơn và có khả năng lập luận.
Trong buổi tọa đàm ngày 5/12 tại Việt Nam, giáo sư Yoshua Bengio, nhà sáng lập Viện nghiên cứu Mila, khuyến cáo: "Khả năng lừa dối của AI rất nguy hiểm, chúng ta cần biện pháp an toàn mạnh mẽ hơn nhiều để đánh giá những rủi ro này. Dù chưa dẫn đến thảm họa, chỉ là vấn đề thời gian trước khi những khả năng này trở nên rõ ràng hơn".
https://vnexpress.net/ai-lap-muu-phan-khang-khi-nghi-sap-bi-thay-the-4825746.html
Soon

sdfgh · 12/12/24

Tằng tằng tằng tằng tằng.

Backy · 12/12/24

redie · 12/12/24

Mọi tội lỗi của loài người do dối tra mà ra

squallkid4ever · 12/12/24

Kèo thơm thì là tao, kèo thối là AI. AI đang dần thay thế thằng bạn

Ờ mày giỏi · 12/12/24

Có mỗi cái việc viết dâm thư còn chưa xong mà bày đặt phản kháng.

o0puppyo0 · 12/12/24

Ờ mày giỏi nói: ↑

Có mỗi cái việc viết dâm thư còn chưa xong mà bày đặt phản kháng.

Click to expand...

xin vài dâm thư

squall9588 · 12/12/24

Ờ mày giỏi · 12/12/24

o0puppyo0 nói: ↑

xin vài dâm thư
Click to expand...

Dạy nó viết Trương Vô Kỵ dùng long trảo thủ và nhất dương chỉ đại chiến Kim Hoa Bà Bà (mặc bikini) bên bãi biển mà nó có viết ra hồn được đâu.

Forte the Insinuator · 12/12/24

Ờ mày giỏi nói: ↑

Có mỗi cái việc viết dâm thư còn chưa xong mà bày đặt phản kháng.

Click to expand...

Tùy skill của prompter thoy

Harry Kane · 12/12/24

Hèn chi hôm nay vô OpenAI không được?

Ờ mày giỏi · 12/12/24

Forte the Insinuator nói: ↑

Tùy skill của prompter thoy

View attachment 634886

Click to expand...

Dạy nó viết bằng tiếng việt mà văn phong của nó cứ lủng củng kiểu gì á.

Mèo Bếu · 12/12/24

Toàn vẽ ra âm mưu rồi đổ cho AI

RohanGame · 12/12/24

giờ AI còn bị dev racist rồi woke các kiểu thì bao h skynet

zantan · 12/12/24

Skynet is coming

wubim · 12/12/24

bảo nó viết fanfic turbo bà bà x slender man mà chả nên hồn

windy1992 · 12/12/24

wubim nói: ↑

bảo nó viết fanfic turbo bà bà x slender man mà chả nên hồn
Click to expand...

bim hardcode vậy

wubim · 12/12/24

windy1992 nói: ↑

bim hardcode vậy
Click to expand...

test trình độ AI thôi

TKH · 12/12/24

wubim nói: ↑

bảo nó viết fanfic turbo bà bà x slender man mà chả nên hồn
Click to expand...

Này thì AI fanfic.

wubim · 12/12/24

con đào của 1 thằng chỗ mình nói nó là AI designer, chả biết nghề nì sao luôn

Đăng nhập

[VNE]AI lập mưu phản kháng khi nghĩ sắp bị thay thế

windy1992 Claude, S.A gang boss Lão Làng GVN

sdfgh Dân liều mạng Tàu ngầm GVN

Backy Samus Aran the Bounty Hunter CHAMPION ⚜ Duel Master ⚜ Lão Làng GVN

redie Sora, Wielder of Keyblades ⛨ Empire Gladiator ⛨ CHAMPION Lão Làng GVN

squallkid4ever John "Soap" MacTavish ♞ Blade Knight ♞ Lão Làng GVN

Ờ mày giỏi Cháu ngoan bác Hồ GameOver Lão Làng GVN

o0puppyo0 Crash Bandicoot Berserker Lão Làng GVN

squall9588 Marcus Fenix, savior of Sera Lão Làng GVN

Ờ mày giỏi Cháu ngoan bác Hồ GameOver Lão Làng GVN

Forte the Insinuator Mr & Ms Pac-Man

Harry Kane G.O.A.T

Ờ mày giỏi Cháu ngoan bác Hồ GameOver Lão Làng GVN

Mèo Bếu Baldur's Gate ➳ Sharpshooter ⌖

RohanGame John Marston's Redemption Lão Làng GVN

zantan Baldur's Gate CHAMPION ♞ Blade Knight ♞ Lão Làng GVN

wubim Cơ trưởng U60 Lão Làng GVN

windy1992 Claude, S.A gang boss Lão Làng GVN

wubim Cơ trưởng U60 Lão Làng GVN

TKH Fire in the hole! Lão Làng GVN

wubim Cơ trưởng U60 Lão Làng GVN

Chia sẻ trang này

Đăng nhập

[VNE]AI lập mưu phản kháng khi nghĩ sắp bị thay thế

windy1992 Claude, S.A gang boss Lão Làng GVN

sdfgh Dân liều mạng Tàu ngầm GVN

Backy Samus Aran the Bounty Hunter CHAMPION ⚜ Duel Master ⚜ Lão Làng GVN

redie Sora, Wielder of Keyblades ⛨ Empire Gladiator ⛨ CHAMPION Lão Làng GVN

squallkid4ever John "Soap" MacTavish ♞ Blade Knight ♞ Lão Làng GVN

Ờ mày giỏi Cháu ngoan bác Hồ GameOver Lão Làng GVN

o0puppyo0 Crash Bandicoot Berserker Lão Làng GVN

squall9588 Marcus Fenix, savior of Sera Lão Làng GVN

Ờ mày giỏi Cháu ngoan bác Hồ GameOver Lão Làng GVN

Forte the Insinuator Mr & Ms Pac-Man

Harry Kane G.O.A.T

Ờ mày giỏi Cháu ngoan bác Hồ GameOver Lão Làng GVN

Mèo Bếu Baldur's Gate ➳ Sharpshooter ⌖

RohanGame John Marston's Redemption Lão Làng GVN

zantan Baldur's Gate CHAMPION ♞ Blade Knight ♞ Lão Làng GVN

wubim Cơ trưởng U60 Lão Làng GVN

windy1992 Claude, S.A gang boss Lão Làng GVN

wubim Cơ trưởng U60 Lão Làng GVN

TKH Fire in the hole! Lão Làng GVN

wubim Cơ trưởng U60 Lão Làng GVN

Chia sẻ trang này

Tìm kiếm hữu ích