Page 53 - Bilgem Teknoloji Dergisi 15. Sayı
P. 53

Mikolov ve arkadaşlarının 2013 yılında kelime gömüleri kavramını ortaya çıkarmasıyla eski seyrek
                  vektör yaklaşımları kullanılmaz oldu. Kelime gömülerinde kelimeler istenilen uzunlukta vektörler
                  olarak ifade edilebiliyordu. Kelime vektörleri elemanları 0/1 dışında ondalıklı sayılar olabiliyordu;
                  böylece boyut azalmasına rağmen tüm farklı kelimeleri ifade edecek kadar büyük bir alan hâlâ
                  mevcuttu. Ayrıca boyutu eskisine göre çok daha küçük olabilen kelime vektörleri anlamsal bilgi de
                  içeriyordu. Vektör olarak birbirine yakın kelimeler anlamsal olarak da benzerlik gösteriyor, ilişkiler
                  uzayda korunuyordu. Örneğin; Kadın ve Erkek kelimeleri arasındaki vektörel uzaklık; Kraliçe ve Kral
                  arasındaki vektörel uzaklığa paralel ve eş boyuttaydı.

                                                    Peki bu istediğimiz boyutta üretebildiğimiz ve içinde anlamsal
                                                    bilgi taşıyan kelime gömüleri nasıl elde edilir? Literatürde pek
                                                    çok kelime gömüsü önerisi mevcuttur. Bu yazıda en yaygın
                                                    olarak kullanılan iki kelime gömü yönteminden bunların teknik
                                                    olarak nasıl oluşturulduğundan ve birbirlerine göre avantaj ve
                                                    dezavantajlarından bahsedeceğiz.
                  Şekil-1 Vektörler arası anlam ilişkisi





                  1- WORDTOVEC:







                  2013 yılında Mikolov ve Google’daki arkadaşları
                  tarafından oluşturulmuştur. WordtoVec yaklaşımı
                  “Eğer iki kelime öncesinde ve sonrasında hep
                  aynı çeşit kelimelerle birlikte kullanılıyorsa; bu
                  iki kelime birbirine benzerdir” mantığını kullanır.
                  WordtoVec iki farklı yöntemle elde edilir. Bunlar
                  CBOW ve CSkip-Gram modelleridir.




















                  Şekil-2 CBOW WordtoVec Modeli
                                                                   2.Dikkate  alınacak  pencere  uzunluğuna karar
                                                                   verilir.  Örneğin;  sadece  kelimeden  önceki  ve
                  Şekil-2’deki “Baharla birlikte doğa canlanıyordu”   sonraki  kelimeler  dikkate  alınacak  ise  pencere
                  cümlesi için pencere boyutu 3 olacak şekilde     uzunluğu 3 olur.
                  kelime gömüsü hesaplama yöntemi aşağıdaki
                  adımlardan oluşmaktadır:                         3.Çıkış katmanında one-hot vektör uzunluğunca
                                                                   nöron ara katmanda hedeflenen vektör boyutu
                  1.Öncelikle çok büyük bir metin içindeki tüm     sayısınca nöron ve giriş katmanında bakılan
                  ayrık kelimeler (tokenlar) one-hot vektör olarak   komşu kelime sayısı çarpı kelimelerin one-hot
                  temsil edilir.                                   vektör boyutu sayısınca nöron bulunur.

                                                                                  TÜBİTAK BİLGEM TEKNOLOJİ ¬ TEMMUZ 2024  51
   48   49   50   51   52   53   54   55   56   57   58