Page 55 - Bilgem Teknoloji Dergisi 15. Sayı
P. 55
2- FASTTEXT:
Her ne kadar wordtoVec’ler hâlâ çok yaygın Kelimeyi oluşturan alt kelime parçacıklarının
olarak kullanılıyor olsa da çıkış cümlesi vektör değerleri bulunup toplanır. Elde edilen
oluşturma aşamasında; eğitimde karşılaşmadığı toplam kelimenin vektör temsiline eşit olur,
kelimeleri tanıyamayacak ve bunlar için kıyaslamalar tüm kelime üzerinden yapılır.
çıktı üretemeyecektir. Diğer bir dezavantaj
da wordtoVec’in eklere kayıtsız olmasıdır. Kelime Vektör Gömü Algoritmalarının
Örneğin; “kapı” ve “kapılarda” kelimeleri Kıyaslanması:
arasındaki benzerliği, kelimelerin öncesinde
ve sonrasındaki bağlama baktığından dolayı Günümüzde en çok kullanılan bahsettiğimiz
tespit etmekte zorlanabilir. Fasttext bu amaçla iki kelime gömüsü yöntemi dışında önerilen
önerilen bir kelime gömüsü yöntemidir [2]. başka yöntemler olsa da hiçbiri bu iki yöntem
Adımları aşağıdaki gibidir. kadar etkin ve yaygın olamadılar. WordtoVec
ve FastText’in birlikte denendiği ve kıyaslandığı
1. Kelime parçalama: Fasttext’te wordtoVec’den çalışmalar mevcuttur [3], [4]. Genel olarak
farklı olarak kelimeler alt parçalara bölünür (sub- wordtoVec ile FastText kıyaslandığında ekle
words). Burada her kelimenin başına ve sonuna türetilmiş kelimelerin benzerliğini bulmada
özel bir sembol konur ve kelimeler n gramlara FastText daha iyi sonuç verirken, kral-kraliçe;
ayrılır. Örneğin; “Doğa canlandı.” cümlesindeki erkek-kadın’da olduğu gibi anlamsal ilişkilerde
her kelime için başlangıç bitiş işaretleri konur wordToVec daha iyi sonuç vermektedir.
<doğa> daha sonra bu 6 sembolden üçerli (Örneğin; “kedim” ile “yedim” kelimeleri benzer
gruplar oluşturulur. Örneğin; <do, doğ, oğa ve harf dizileri içerdiği için FastText’de vektör
ğa>. temsilleri yakın olacaktır. Bu da anlamsal ilişkide
hataya neden olacaktır.)
2. Alt kelime parçası vektör temsili: Öncelikle
wordtoVec’e benzer olarak her bir alt kelime Bilgisayarlar ilk ortaya çıktığında anlam gibi
parçası (sub-word) için bir vektör temsili bulunur çok karmaşık sistemleri modelleyip temsil
ve bu alt kelime parçaları Hashing algoritmaları edilebilmesi bir hayal gibiydi. Fakat günümüzde
ile hafızada saklanır. bu konuda çok yol kat edildi. Bu yolda önemli yer
tutan kelime gömülerinin de daha iyi anlamsal
3. Kelimeyi vektör temsili: Bir kelimenin vektör temsiller için nasıl gelişip dönüşeceğini hep
temsili bulunmak isteniyorsa aranan kelime sub- beraber göreceğiz.
word’lerine ayrılır.
Kaynakça:
[1] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arX-
iv:1301.3781.
[2] Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the associa-
tion for computational linguistics, 5, 135-146.
[3] Naili, M., Chaibi, A. H., & Ghezala, H. H. B. (2017). Comparative study of word embedding methods in topic segmentation. Procedia
computer science, 112, 340-349.
[4] Wang, B., Wang, A., Chen, F., Wang, Y., & Kuo, C. C. J. (2019). Evaluating word embedding models: Methods and experimental re-
sults. APSIPA transactions on signal and information processing, 8, e19.
TÜBİTAK BİLGEM TEKNOLOJİ ¬ TEMMUZ 2024 53