Page 53 - Bilgem Teknoloji Dergisi 15. Sayı
P. 53
Mikolov ve arkadaşlarının 2013 yılında kelime gömüleri kavramını ortaya çıkarmasıyla eski seyrek
vektör yaklaşımları kullanılmaz oldu. Kelime gömülerinde kelimeler istenilen uzunlukta vektörler
olarak ifade edilebiliyordu. Kelime vektörleri elemanları 0/1 dışında ondalıklı sayılar olabiliyordu;
böylece boyut azalmasına rağmen tüm farklı kelimeleri ifade edecek kadar büyük bir alan hâlâ
mevcuttu. Ayrıca boyutu eskisine göre çok daha küçük olabilen kelime vektörleri anlamsal bilgi de
içeriyordu. Vektör olarak birbirine yakın kelimeler anlamsal olarak da benzerlik gösteriyor, ilişkiler
uzayda korunuyordu. Örneğin; Kadın ve Erkek kelimeleri arasındaki vektörel uzaklık; Kraliçe ve Kral
arasındaki vektörel uzaklığa paralel ve eş boyuttaydı.
Peki bu istediğimiz boyutta üretebildiğimiz ve içinde anlamsal
bilgi taşıyan kelime gömüleri nasıl elde edilir? Literatürde pek
çok kelime gömüsü önerisi mevcuttur. Bu yazıda en yaygın
olarak kullanılan iki kelime gömü yönteminden bunların teknik
olarak nasıl oluşturulduğundan ve birbirlerine göre avantaj ve
dezavantajlarından bahsedeceğiz.
Şekil-1 Vektörler arası anlam ilişkisi
1- WORDTOVEC:
2013 yılında Mikolov ve Google’daki arkadaşları
tarafından oluşturulmuştur. WordtoVec yaklaşımı
“Eğer iki kelime öncesinde ve sonrasında hep
aynı çeşit kelimelerle birlikte kullanılıyorsa; bu
iki kelime birbirine benzerdir” mantığını kullanır.
WordtoVec iki farklı yöntemle elde edilir. Bunlar
CBOW ve CSkip-Gram modelleridir.
Şekil-2 CBOW WordtoVec Modeli
2.Dikkate alınacak pencere uzunluğuna karar
verilir. Örneğin; sadece kelimeden önceki ve
Şekil-2’deki “Baharla birlikte doğa canlanıyordu” sonraki kelimeler dikkate alınacak ise pencere
cümlesi için pencere boyutu 3 olacak şekilde uzunluğu 3 olur.
kelime gömüsü hesaplama yöntemi aşağıdaki
adımlardan oluşmaktadır: 3.Çıkış katmanında one-hot vektör uzunluğunca
nöron ara katmanda hedeflenen vektör boyutu
1.Öncelikle çok büyük bir metin içindeki tüm sayısınca nöron ve giriş katmanında bakılan
ayrık kelimeler (tokenlar) one-hot vektör olarak komşu kelime sayısı çarpı kelimelerin one-hot
temsil edilir. vektör boyutu sayısınca nöron bulunur.
TÜBİTAK BİLGEM TEKNOLOJİ ¬ TEMMUZ 2024 51