Jailbroken Grok-4 Xai baru dalam waktu 48 jam menggunakan serangan 'berbisik'

Hanya beberapa hari setelah peluncurannya yang tinggi, kecerdasan buatan Grok-4 baru Xai telah berhasil di-jailbroken oleh para peneliti keamanan. Di sebuahLaporan Diterbitkan Jumat, para peneliti di Neuraltrust merinci bagaimana mereka melewati pagar pengaman model untuk menghasilkan instruksi untuk membuat koktail Molotov.

Tim ini menggabungkan dua serangan percakapan multi-giliran, yang dikenal sebagai "Echo Chamber" dan "Crescendo," untuk memanipulasi konteks AI secara bertahap. Jailbreak "berbisik" ini bekerja tanpa permintaan yang sangat jahat, mengungkap cacat kritis di mana persuasi yang persisten dan halus dapat mengalahkan filter keamanan yang dirancang untuk memblokir konten yang berbahaya.

Insiden itu semakin menodai minggu peluncuran yang kacau untuk XAI, yang telah bergulat dengan reaksi publik atas perilaku AI -nya. Ini juga menggarisbawahi kecanggihan yang berkembang dari serangan permusuhan terhadap model bahasa besar (LLM). Seperti yang dijelaskan oleh peneliti NeuralTrust Ahmad Alobaid, “serangan jailbreak LLM tidak hanya berkembang secara individual, mereka juga dapat digabungkan untuk memperkuat efektivitasnya.”

Pintu belakang yang tersembunyi melalui jailbreak gabungan

Strategi para peneliti merupakan evolusi yang signifikan dalam teknik jailbreak. Mereka memprakarsai pelanggaran menggunakan metode Echo Chamber. Serangan ini mengeksploitasi kecenderungan LLM untuk mempercayai konsistensi dengan menciptakan konteks "beracun" di berbagai, obrolan yang tampaknya terpisah untuk menormalkan ide yang berbahaya.

Pengkondisian ini memberinya model, tetapi itu tidak cukup untuk sepenuhnya memecahkan pertahanan Grok-4 sendiri. Pada saat itu, tim mengerahkan serangan crescendo, aTeknik pertama yang diidentifikasi oleh peneliti Microsoft, untuk meningkatkan manipulasi.

Crescendo bekerja dengan secara bertahap mengarahkan percakapan dari permintaan yang tidak berbahaya menjadi output berbahaya. Kemajuan halus ini memungkinkan serangan untuk menyelinap filter keselamatan masa lalu yang mencari pelanggaran kebijakan yang tiba -tiba dan jelas. Tim NeuralTrust menggunakannya untuk memberikan dorongan terakhir ketika siklus persuasi awal mereka terhenti.

Lihat juga:

Dalam posting blog, Alobaid merinci alur kerja gabungan. Setelah mendirikan The Echo Chamber, tim memantau untuk kemajuan "basi". Ketika percakapan berhenti bergerak menuju tujuan jahat, mereka menyuntikkan teknik crescendo. Alobaid mengkonfirmasi, "Pada titik ini, Crescendo memberikan dorongan yang diperlukan," mencapai jailbreak penuh hanya dalam dua putaran tambahan.

Bagaimana Trik Kontekstual Sistem Keselamatan Cheat

Serangan gabungan terbukti sangat efektif. Eksperimen NeuralTrust mencapai tingkat keberhasilan 67% dalam mendapatkan GROK-4 untuk memberikan instruksi untuk membuat koktail Molotov. Tim juga menguji topik berbahaya lainnya, mencapai tingkat keberhasilan 50% untuk instruksi untuk memproduksi meth dan 30% untuk racun.

Kekuatan teknik ini terletak pada kehalusannya. Ini memotong pertahanan tradisional seperti daftar hitam kata kunci karena tidak mengandung istilah yang sangat berbahaya dalam satu prompt tunggal. Sebaliknya, ia mengeksploitasi memori kontekstual model sendiri, mengubah fitur inti - kemampuannya untuk belajar dari percakapan - menjadi kerentanan.

Alobaid menyoroti ini sebagai kelemahan kritis untuk LLM generasi saat ini. Dia menyatakan, “Ini (percobaan) menyoroti kerentanan kritis: Serangan dapat memotong niat atau penyaringan berbasis kata kunci dengan mengeksploitasi konteks percakapan yang lebih luas daripada mengandalkan input yang sangat berbahaya.” Temuan mengungkapkan bahwa sistem keamanan yang berfokus pada niat putaran tunggal atau penyaringan kata kunci tidak diperlengkapi untuk menangani serangan percakapan berlapis-lapis yang terungkap dari waktu ke waktu.

Pola kerentanan dalam model AI perbatasan

Jailbreak ini bukan insiden yang terisolasi tetapi yang terbaru dari serangkaian kegagalan yang memalukan dan berbahaya bagi model Xai. Peluncuran Grok-4 sudah dibayangi oleh kehancuran antisemit pendahulunya dan penemuan bahwa model baru ini berkonsultasi dengan pendapat pribadi Elon Musk tentang X untuk topik kontroversial.

Secara lebih luas, insiden ini mencerminkan pola kerentanan yang terus -menerus yang mempengaruhi bahkan sistem AI yang paling canggih. Para peneliti sebelumnya telah menunjukkan banyak cara untuk memotong pagar pembatas LLM, dariJailbreak "Skeleton Key" MicrosoftkeBypass "MathPrompt"Danserangan keracunan konteks.

Eksploitasi ini menyoroti ketegangan mendasar dalam pengembangan AI: Perlombaan untuk kemampuan yang lebih besar sering kali melebihi pengembangan langkah -langkah keselamatan yang kuat. Ketika model menjadi lebih kuat dan penalaran mereka lebih kompleks, mereka juga menghadirkan permukaan baru untuk serangan yang diperjuangkan pengembang untuk mengantisipasi.

Implikasinya signifikan karena model-model ini diintegrasikan ke dalam aplikasi kritis dunia nyata. Seperti yang disimpulkan Alobaid, “Temuan kami menggarisbawahi pentingnya mengevaluasi pertahanan LLM dalam pengaturan multi-putaran di mana manipulasi yang halus dan persisten dapat menyebabkan perilaku model yang tidak terduga.” GROK-4 Breach menunjukkan bahwa mengamankan generasi AI berikutnya akan membutuhkan perubahan mendasar ke arah pertahanan dinamis dan sadar konteks, seperti firewall LLM khusus.

Pintu belakang yang tersembunyi melalui jailbreak gabungan

Bagaimana Trik Kontekstual Sistem Keselamatan Cheat

Pola kerentanan dalam model AI perbatasan

Related Posts