Page 52 - Bilgem Teknoloji Dergisi 15. Sayı
P. 52

DİJİTAL GELECEK






            Dr. İlknur DÖNMEZ, Başuzman Araştırmacı, BİLGEM BTE




            KELİME/METİN




            VEKTÖRLERİ












            Günümüzde ChatGPT gibi yapay zekâ araçları ile
            herhangi bir sorunun cevabını çok kısa sürede çoğu
            zaman da bizi şaşırtan doğrulukta alabiliyoruz. Daha
            elli yıl öncesinde metni analiz edebilmek için içindeki

            kelimelerin frekansına bakıyor ve ne hakkında olduğunu
            tahmin etmeye çalışıyorduk. Peki elli yıl içindeki bu büyük
            ilerleme nasıl gerçekleşti?






            Her ne kadar sinir ağları yapısının bilgisayar algoritmalarında uygulanmaya
            başlaması, derin sinir ağları, ardışıl sinir ağları ve son olarak 2017 yılında önerilen
            transformer teknolojilerinin bu gelişimde payı büyük olsa da; metin odaklı soru
            cevap sistemlerinin bu denli iyi çalışmasının diğer bir nedeni metin vektör temsilleri
            (kelime gömüleri) ve bu temsillerin var olan algoritmalara adaptasyonudur.

            Öncelikle “Kelime gömülerine neden ihtiyaç duyulmuştur?” sorusuna cevap vermek
            gerekir. Çok sayıda veriyi otomatik ve hızlı olarak analiz edebildiğimiz bilgisayarlar
            0/1 kodlarıyla ve numerik sayıların 0/1 şeklinde kodlanmasıyla işlem yapmaktadır.
            Yani bilgisayarlar sadece numerik sayıların oluşturduğu bir dili anlamaktadır. Peki
            o zaman günlük hayatta konuştuğumuz dilleri, cümleleri, kelimeleri bilgisayar nasıl
            analiz edilebilir? Bir kelimenin anlamını sayılarla ifade etmek mümkün müdür? Peki
            sayılarla ifade edilen kelimelerin anlam ilişkileri korunabilir mi?

            2013 yılında Mikolov kelime gömüsü (wordtovec) kavramını [1] ortaya çıkarmadan
            önce, kelimeler sadece kelimenin sözlükteki indeks sırasının 1, diğer tüm elemanların
            0 olduğu sözlük uzunluğundaki vektör yapılarıyla ifade ediliyordu (one-hot vector).
            Eğer analiz edilecek metin binlerce kelimeden oluşuyorsa, bu kelimelerin her birinin
            sözlük uzunluğunda ve bol sıfırlı seyreltik bir yapıda ifade edilişi hem doğrulukları
            hem de performansı olumsuz etkiliyordu. Kelime vektörlerinin her biri birbirine eşit
            mesafede olup hiçbir anlamsal bilgi taşımıyorlardı.








            50
   47   48   49   50   51   52   53   54   55   56   57