Page 64 - Bilgem Teknoloji Dergisi 15. Sayı
P. 64

DİJİTAL GELECEK




            2.1.3. Kaçınma (Evasion)                          Gelişmiş  saldırılarda bir LLM kullanıcının
                                                              kimliğine bürünme veya kullanıcının ayarlarındaki
            Zehirleme saldırılarının aksine, kaçınma saldırıları  eklentilerle etkileşime girme gibi eylemleri
            eğitim  aşamasına  müdahale ederek modelin  gerçekleştirmek için manipüle edilebilir. Ayrıca
            davranışını değiştirmez. Bunun yerine giriş  LLM ile bütünleşik uygulamalar ince ayar işlemleri
            verilerinde küçük değişiklikler yapmak suretiyle  için kendi veri tabanlarını kullanabilir. Bu tür
            modelin  yanlış  çıktılar üretmesine  neden  uygulamalarda LLM, komutları SQL sorgularına
            olarak test zamanında modelin zayıflıklarından  çevirerek işlemleri gerçekleştirir. Bu da prompt
            ve sınırlamalarından  yararlanır. Bu küçük  enjeksiyonu  saldırıları  ile  veri  tabanına  yetkisiz
            değişiklikler genel görünümleri veya anlamları  erişim sağlanarak veri tabanı işlemlerinin
            itibarıyla bir insan tarafından fark edilemeyen  gerçekleştirilmesine olanak sağlamaktadır [5].
            gürültü olarak adlandırılır. Kaçınma saldırıları,
            tespitten  kaçmak  veya  sistemin  karar  verme  2.1.5. Model Ters Çevirme (Model Inversion)
            sürecini manipüle etmek için kullanılabildiğinden
            konuşma tanıma, görüntü tanıma veya spam  Model ters çevirme saldırılarında, bir saldırgan
            filtreleme   gibi  güvenlik   açısından   kritik  modelin    çıktılarını  gözlemleyerek   modeli
            uygulamalarda  makine  öğrenimi  sistemlerinin  eğitmek için kullanılan eğitim verileri veya
            kullanımında önemli bir zorluk teşkil etmektedir.  girdiler hakkındaki hassas bilgileri yeniden
            Görüntü tanıma ve sınıflandırma uygulamalarına  yapılandırmaya çalışır. Model ters çevirme
            yönelik kaçınma saldırıları, özellikle yüz tanıma  saldırılarının stratejileri optimizasyona dayalı
            sistemleri ve otonom araçlar için ciddi bir tehdit  yöntemler ve vekil model yöntemleri olmak üzere
            oluşturabilir. Örneğin; bu saldırı ile saldırgan  iki yaklaşıma dayanmaktadır. Optimizasyon
            yüz tanıma sistemlerini atlatmak için görüntüyü  tabanlı bir yaklaşım saldırganın modelin çıktılarını
            değiştirerek başka biri gibi algılanmasına neden  kullanarak orijinal verileri tahmin etmek için
            olabilir ya da otonom araçlara karşı trafik  bir optimizasyon problemi formüle etmesine
            işaretlerine küçük noktalar ekleyerek aracın dur  dayanır.  Saldırgan  bir  tahmin  girdisi  oluşturur
            işaretini tanımamasına ve istenmeyen kararlar  ve modelin çıktısı ile orijinal veri arasındaki
            vermesine  neden olabilir. Metin sınıflandırma  farkı en aza indirmek için bu tahmin girdisini
            görevleri için  metinsel  ögelerin (kelimeler  optimize etmeye çalışır. Bu, genellikle gradyan
            veya karakterler gibi) benzer alternatiflerle  tabanlı optimizasyon teknikleri kullanılarak
            değiştirilmesiyle karşıt örnekler oluşturulabilir.  gerçekleştirilir. Saldırgan en iyi tahmin girdisini
            Bu örnekler metni yanlış sınıflandırmak için metin  bulmak için tahmin girdisini yinelemeli olarak
            sınıflandırma  modelleri  tarafından  kullanılabilir  günceller [7]. Vekil model eğitimi yaklaşımında
            ve bu da yanıltıcı kararlara yol açabilir. Bu tür  bir vekil model gerçek modele benzer şekilde
            saldırılar metin gömme yöntemleri veya özel  davranır ve modelin girdisi ile çıktısı arasındaki
            olarak  tasarlanmış  bir puanlama  fonksiyonu  ilişkileri daha iyi yakalamayı amaçlar [7]. Böylece
            kullanılarak gerçekleştirilebilir ve bu yaklaşım  modeli yinelemeli olarak sorgulayarak ve
            doğal dil işleme (NLP) sınıflandırıcılarına ve  yanıtları  analiz  ederek  saldırgan  eğitim  verileri
            sıralı veri modelleme modellerine saldırmak için  hakkında ayrıntılar çıkarabilir, potansiyel olarak
            kullanılmıştır [4].                               gizliliği tehlikeye atabilir veya özel bilgileri açığa
                                                              çıkarabilir.
            2.1.4. Prompt Enjeksiyonu
                                                              2.1.7. Model Çıkarma
            Prompt enjeksiyonu, bir saldırganın niyetlerini  Model çalma saldırısı olarak da bilinen model
            gerçekleştirmek için büyük bir dil modelini (LLM)  çıkarma saldırısı, bir yapay zekâ modelinin iç
            manipüle etmesine olanak tanıyan bir güvenlik  yapısını  veya parametrelerini çıkarıp  hedef
            açığıdır.  Saldırganın,   modelin    davranışını  modelin benzer bir kopyasını oluşturmayı
            değiştirmek ve hassas bilgileri çıkarmak için girdi  amaçlayan bir siber saldırı türüdür [6]. Bu tür
            verilerine  stratejik  olarak  belirli  talimatlar  veya  bir saldırı yöntemini kullanan saldırgan yüksek
            sorgular enjekte ettiği bir tekniktir [6]. İstemleri  maliyetle oluşturulan bir modeli daha düşük
            dikkatlice  seçerek  ve  enjekte  ederek  saldırgan  maliyetle klonlayabilmekte ve klonlanan model
            modelin karar verme sürecini etkileyebilir ve  sayesinde modelin iç yapısı hakkında bilgi sahibi
            potansiyel olarak gizli bilgilere yetkisiz erişim  olmaktadır [8].
            elde edebilir.



            62
   59   60   61   62   63   64   65   66   67   68   69