Page 55 - Bilgem Teknoloji Dergisi 15. Sayı
P. 55

2- FASTTEXT:






                  Her ne kadar wordtoVec’ler hâlâ çok yaygın       Kelimeyi oluşturan alt  kelime  parçacıklarının
                  olarak kullanılıyor olsa da çıkış cümlesi        vektör değerleri bulunup toplanır. Elde edilen
                  oluşturma aşamasında; eğitimde karşılaşmadığı    toplam kelimenin vektör temsiline eşit olur,
                  kelimeleri  tanıyamayacak     ve   bunlar   için  kıyaslamalar tüm kelime üzerinden yapılır.
                  çıktı  üretemeyecektir.  Diğer  bir dezavantaj
                  da wordtoVec’in eklere kayıtsız  olmasıdır.      Kelime Vektör Gömü Algoritmalarının
                  Örneğin; “kapı” ve “kapılarda” kelimeleri        Kıyaslanması:
                  arasındaki benzerliği, kelimelerin öncesinde
                  ve sonrasındaki bağlama baktığından dolayı       Günümüzde en çok kullanılan bahsettiğimiz
                  tespit etmekte zorlanabilir. Fasttext bu amaçla   iki kelime gömüsü yöntemi dışında önerilen
                  önerilen  bir  kelime  gömüsü  yöntemidir  [2].   başka  yöntemler  olsa  da  hiçbiri  bu  iki  yöntem
                  Adımları aşağıdaki gibidir.                      kadar etkin ve yaygın olamadılar. WordtoVec
                                                                   ve FastText’in birlikte denendiği ve kıyaslandığı
                  1. Kelime parçalama: Fasttext’te wordtoVec’den   çalışmalar mevcuttur [3], [4]. Genel olarak
                  farklı olarak kelimeler alt parçalara bölünür (sub-  wordtoVec ile FastText kıyaslandığında ekle
                  words). Burada her kelimenin başına ve sonuna    türetilmiş kelimelerin benzerliğini bulmada
                  özel bir sembol konur ve kelimeler n gramlara    FastText daha iyi sonuç verirken, kral-kraliçe;
                  ayrılır. Örneğin; “Doğa canlandı.” cümlesindeki   erkek-kadın’da olduğu gibi anlamsal ilişkilerde
                  her kelime  için  başlangıç  bitiş  işaretleri  konur   wordToVec  daha  iyi  sonuç  vermektedir.
                  <doğa> daha sonra bu 6 sembolden üçerli          (Örneğin; “kedim” ile “yedim” kelimeleri benzer
                  gruplar  oluşturulur. Örneğin;  <do,  doğ,  oğa  ve   harf dizileri içerdiği için FastText’de vektör
                  ğa>.                                             temsilleri yakın olacaktır. Bu da anlamsal ilişkide
                                                                   hataya neden olacaktır.)
                  2. Alt kelime parçası vektör temsili: Öncelikle
                  wordtoVec’e  benzer  olarak  her  bir alt  kelime   Bilgisayarlar ilk ortaya çıktığında anlam gibi
                  parçası (sub-word) için bir vektör temsili bulunur   çok karmaşık  sistemleri modelleyip temsil
                  ve bu alt kelime parçaları Hashing algoritmaları   edilebilmesi bir hayal gibiydi. Fakat günümüzde
                  ile hafızada saklanır.                           bu konuda çok yol kat edildi. Bu yolda önemli yer
                                                                   tutan kelime gömülerinin de daha iyi anlamsal
                  3. Kelimeyi vektör temsili: Bir kelimenin vektör   temsiller  için  nasıl  gelişip  dönüşeceğini  hep
                  temsili bulunmak isteniyorsa aranan kelime sub-  beraber göreceğiz.
                  word’lerine ayrılır.















                  Kaynakça:
                  [1] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arX-
                  iv:1301.3781.
                  [2] Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the associa-
                  tion for computational linguistics, 5, 135-146.
                  [3] Naili, M., Chaibi, A. H., & Ghezala, H. H. B. (2017). Comparative study of word embedding methods in topic segmentation. Procedia
                  computer science, 112, 340-349.
                  [4] Wang, B., Wang, A., Chen, F., Wang, Y., & Kuo, C. C. J. (2019). Evaluating word embedding models: Methods and experimental re-
                  sults. APSIPA transactions on signal and information processing, 8, e19.





                                                                                  TÜBİTAK BİLGEM TEKNOLOJİ ¬ TEMMUZ 2024  53
   50   51   52   53   54   55   56   57   58   59   60