Page 66 - Bilgem Teknoloji Dergisi 15. Sayı
P. 66
DİJİTAL GELECEK
2.2. Savunma Stratejileri Kriptografik teknikler de modelin güvenliğini
sağlamak için etkili bir çözüm sunar.
Veri zehirlenmesine karşı geliştirilen stratejilerin
birincisi veri doğrulama yöntemidir. Bu strateji, Kaçınma (Evasion) saldırılarında önlem olarak
veri kaynağının güvenilirliğini sağlamayı sinir ağı modellerinin sağlamlığını artırmak
hedeflemektedir. Model performansının için kullanılan bir yöntem ise karşıt örneklerle
büyük ölçüde veri kalitesi ile bağlantılı eğitimdir. Bu, bilinen saldırı teknikleri kullanılarak
olduğu düşünüldüğünden veri doğrulama model eğitimi aşamasında karşıt örneklerin
ile veri kümesine giren verilerin içeriğini ve oluşturulmasını içerir. Düzenli hâle getirme
güvenilirliğini kontrol edebiliriz. Bu proaktif teknikleri de modelin karar sınırlarındaki
yaklaşım hatalı veya yanıltıcı verilerin model zayıflıkları azaltarak kaçınma saldırılarına karşı
performansını etkilemesini önlemeye yardımcı direncini artırır. Topluluk öğrenimi yöntemi farklı
olur. Verilerin doğrulanması potansiyel sorunları parametrelerle birden fazla modelin eğitilip
erken aşamalarda tespit etmemizi ve ele tahminlerinin birleştirilmesiyle belirli bir modele
almamızı sağlar. Yüksek kaliteli doğru verilerin hedeflenen düşmanca örneklerin etkisini azaltır.
kullanılması model çıktısının güvenilirliğini Girdi doğrulama da anormallikleri kontrol
ve etkinliğini artırır. İkinci strateji güvenli ederek ve kötü niyetli girdileri reddederek
veri depolama sağlamayı amaçlar. Erişim kaçınma stratejileri arasında etkili bir savunma
kontrol politikası verilerin güvenli bir şekilde mekanizmasıdır.
depolanması için bir yöntemdir. Şifreleme
veri depolamayı güvenli hâle getiren bir diğer Prompt Enjeksiyonu Stratejileri, büyük dil modeli
faktördür. Güvenli veri aktarım protokollerinin (LLM) entegreli uygulamalarda kullanılan güvenlik
kullanılması ve ağ izolasyonu da güvenli veri önlemlerini ele almaktadır. Bu doğrultuda
depolamanın önemli unsurlarıdır. Bir diğer uygulanabilecek bir strateji prompt enjeksiyonu
strateji veri temizlemedir. Toksik veri modellerini saldırısını önlemek amacıyla veri tabanı
tespit etmek ve temizlemek için çeşitli yöntemler izinlerinin sıkılaştırılmasıdır. Bu strateji veri
kullanılır. İlgisiz Bölge (RONI) yöntemi her bir tabanı rolleri ve izinlerini kullanarak istenmeyen
örneği inceleyerek model doğruluğunu azaltan SQL deyimlerinin (sorgularının) yürütülmesini
örnekleri eğitimden çıkarmaktadır. Ayrıca sınırlar. Her rol için belirlenen izinler kullanıcıların
ANTIDOTE ve KUAFUDET gibi istatistiksel belirli tablolarda gerçekleştirebileceği işlemleri
yaklaşımlar zehirlenme saldırılarını tespit edip belirler. Bu, veri tabanı güvenliğini artırarak
etkilerini azaltmaya yönelik etkili mekanizmalar prompt enjeksiyonu saldırılarına karşı etkili bir
sunar. Model toplulukları da veri zehirlenmesine savunma sağlar. Diğer bir strateji ise bilgi ön
karşı sağlam bir savunma stratejisi olarak yüklemesidir. Bu strateji, bir LLM’nin kullanıcı
kullanılabilir. Farklı veri alt kümeleri üzerinde verilerini alma yöntemini tanımlar. Kullanıcı
birden fazla modelin eğitilip tahminlerinin verileri doğrudan LLM tarafından kullanılan
birleştirilmesi zehirlenme saldırılarını azaltmaya promptlara dahil edilerek botun gerekli tüm
yardımcı olur. kullanıcı bilgilerine sahip olması sağlanır. Bu,
hassas kullanıcı bilgilerinin yanlışlıkla diğer
Model zehirlenmesine karşı geliştirilen kullanıcılarla paylaşılma riskini azaltır. Ancak
stratejilerden biri düzenlileştirme tekniklerinin belirli dezavantajları bulunmaktadır. API
uygulanmasıdır. L1 veya L2 gibi düzenlileştirme maliyetlerinin ve yanıt sürelerinin artması buna
teknikleri modelin genelleme performansını örnek olarak verilebilir.
artırarak aşırı uyumu önler ve zehirlenme
saldırılarının olasılığını azaltır. Budama tekniği ise Model Ters Çevirme Stratejileri, kaçınma
nöronları etkisizleştirerek modelin güvenliğini saldırıları için kullanılan giriş doğrulama
artırır. Dağıtık modelin zehirlenmesini önlemek yöntemini ve modelin şeffaflığını içermektedir.
için istemci cihazlardan gelen güncellemelerin İlk olarak giriş doğrulama yöntemi potansiyel
incelenmesi önemlidir. Bu, çapraz doğrulama olarak kötü niyetli veya anormal girişleri
ile değerlendirilen güncellemelerin ağırlıklarının filtreleyerek yalnızca meşru ve beklenen giriş
ayarlanması yoluyla kötü niyetli istemcilerin verilerinin kabul edilmesini sağlar.
belirlenmesini sağlar.
64