Page 64 - Bilgem Teknoloji Dergisi 15. Sayı

P. 64

DİJİTAL GELECEK

2.1.3. Kaçınma (Evasion) Gelişmiş saldırılarda bir LLM kullanıcının
kimliğine bürünme veya kullanıcının ayarlarındaki
Zehirleme saldırılarının aksine, kaçınma saldırıları eklentilerle etkileşime girme gibi eylemleri
eğitim aşamasına müdahale ederek modelin gerçekleştirmek için manipüle edilebilir. Ayrıca
davranışını değiştirmez. Bunun yerine giriş LLM ile bütünleşik uygulamalar ince ayar işlemleri
verilerinde küçük değişiklikler yapmak suretiyle için kendi veri tabanlarını kullanabilir. Bu tür
modelin yanlış çıktılar üretmesine neden uygulamalarda LLM, komutları SQL sorgularına
olarak test zamanında modelin zayıflıklarından çevirerek işlemleri gerçekleştirir. Bu da prompt
ve sınırlamalarından yararlanır. Bu küçük enjeksiyonu saldırıları ile veri tabanına yetkisiz
değişiklikler genel görünümleri veya anlamları erişim sağlanarak veri tabanı işlemlerinin
itibarıyla bir insan tarafından fark edilemeyen gerçekleştirilmesine olanak sağlamaktadır [5].
gürültü olarak adlandırılır. Kaçınma saldırıları,
tespitten kaçmak veya sistemin karar verme 2.1.5. Model Ters Çevirme (Model Inversion)
sürecini manipüle etmek için kullanılabildiğinden
konuşma tanıma, görüntü tanıma veya spam Model ters çevirme saldırılarında, bir saldırgan
filtreleme gibi güvenlik açısından kritik modelin çıktılarını gözlemleyerek modeli
uygulamalarda makine öğrenimi sistemlerinin eğitmek için kullanılan eğitim verileri veya
kullanımında önemli bir zorluk teşkil etmektedir. girdiler hakkındaki hassas bilgileri yeniden
Görüntü tanıma ve sınıflandırma uygulamalarına yapılandırmaya çalışır. Model ters çevirme
yönelik kaçınma saldırıları, özellikle yüz tanıma saldırılarının stratejileri optimizasyona dayalı
sistemleri ve otonom araçlar için ciddi bir tehdit yöntemler ve vekil model yöntemleri olmak üzere
oluşturabilir. Örneğin; bu saldırı ile saldırgan iki yaklaşıma dayanmaktadır. Optimizasyon
yüz tanıma sistemlerini atlatmak için görüntüyü tabanlı bir yaklaşım saldırganın modelin çıktılarını
değiştirerek başka biri gibi algılanmasına neden kullanarak orijinal verileri tahmin etmek için
olabilir ya da otonom araçlara karşı trafik bir optimizasyon problemi formüle etmesine
işaretlerine küçük noktalar ekleyerek aracın dur dayanır. Saldırgan bir tahmin girdisi oluşturur
işaretini tanımamasına ve istenmeyen kararlar ve modelin çıktısı ile orijinal veri arasındaki
vermesine neden olabilir. Metin sınıflandırma farkı en aza indirmek için bu tahmin girdisini
görevleri için metinsel ögelerin (kelimeler optimize etmeye çalışır. Bu, genellikle gradyan
veya karakterler gibi) benzer alternatiflerle tabanlı optimizasyon teknikleri kullanılarak
değiştirilmesiyle karşıt örnekler oluşturulabilir. gerçekleştirilir. Saldırgan en iyi tahmin girdisini
Bu örnekler metni yanlış sınıflandırmak için metin bulmak için tahmin girdisini yinelemeli olarak
sınıflandırma modelleri tarafından kullanılabilir günceller [7]. Vekil model eğitimi yaklaşımında
ve bu da yanıltıcı kararlara yol açabilir. Bu tür bir vekil model gerçek modele benzer şekilde
saldırılar metin gömme yöntemleri veya özel davranır ve modelin girdisi ile çıktısı arasındaki
olarak tasarlanmış bir puanlama fonksiyonu ilişkileri daha iyi yakalamayı amaçlar [7]. Böylece
kullanılarak gerçekleştirilebilir ve bu yaklaşım modeli yinelemeli olarak sorgulayarak ve
doğal dil işleme (NLP) sınıflandırıcılarına ve yanıtları analiz ederek saldırgan eğitim verileri
sıralı veri modelleme modellerine saldırmak için hakkında ayrıntılar çıkarabilir, potansiyel olarak
kullanılmıştır [4]. gizliliği tehlikeye atabilir veya özel bilgileri açığa
çıkarabilir.
2.1.4. Prompt Enjeksiyonu
2.1.7. Model Çıkarma
Prompt enjeksiyonu, bir saldırganın niyetlerini Model çalma saldırısı olarak da bilinen model
gerçekleştirmek için büyük bir dil modelini (LLM) çıkarma saldırısı, bir yapay zekâ modelinin iç
manipüle etmesine olanak tanıyan bir güvenlik yapısını veya parametrelerini çıkarıp hedef
açığıdır. Saldırganın, modelin davranışını modelin benzer bir kopyasını oluşturmayı
değiştirmek ve hassas bilgileri çıkarmak için girdi amaçlayan bir siber saldırı türüdür [6]. Bu tür
verilerine stratejik olarak belirli talimatlar veya bir saldırı yöntemini kullanan saldırgan yüksek
sorgular enjekte ettiği bir tekniktir [6]. İstemleri maliyetle oluşturulan bir modeli daha düşük
dikkatlice seçerek ve enjekte ederek saldırgan maliyetle klonlayabilmekte ve klonlanan model
modelin karar verme sürecini etkileyebilir ve sayesinde modelin iç yapısı hakkında bilgi sahibi
potansiyel olarak gizli bilgilere yetkisiz erişim olmaktadır [8].
elde edebilir.

59 60 61 62 63 64 65 66 67 68 69