Teknoloji
Moderator
Google'ın DeepMind araştırma birimi tarafından yapılan yeni bir çalışmaya göre; bir yapay zeka sistemi, büyük dil modelleri tarafından üretilen bilgilerin doğruluğunu değerlendirirken insan doğruluk kontrolörlerinden daha iyi performans gösteriyor.
Long-form factuality in large language models başlıklı makalede, Search-Augmented Factuality Evaluator (SAFE) adlı bir yöntem tanıtılıyor. SAFE büyük dil modeli kullanarak, metni tek tek gerçeklere ayırıyor ve ardından her bir iddianın doğruluğunu belirlemek için Google Arama sonuçlarını kullanıyor.Makalenin yazarlarının aktardıklarına göre; SAFE, çok adımlı bir akıl yürütme sürecini kullanarak her bir gerçeğin doğruluğunu değerlendirmek için bir büyük dil modeli (LLM) kullanıyor.
Çalışma kapsamında araştırmacılar, yaklaşık 16 bin olgudan oluşan bir veri kümesinde SAFE ile insan değerlendiricileri karşı karşıya getirdi. Bu karşılaştırmada SAFE'in değerlendirmelerinin insan değerlendirmeleriyle yüzde 72 oranında eşleşti. Daha da önemlisi, SAFE ile insan değerlendiriciler arasındaki 100 anlaşmazlıktan oluşan bir örneklemde, SAFE'nin kararının vakaların yüzde 76'sında doğru olduğu tespit edildi. Makalede büyük dil modeli aracılarının insanüstü derecelendirme performansına ulaşabileceği iddia edildi.
Yapay zeka araştırmacılarının bazıları bu insanüstü tanımına karşı çıktı. Zira gerçekten insanüstü bir performanstan bahsedebilmek için SAFE'in yalnızca kitle kaynaklı çalışanlarla değil, uzman insan doğrulama değerlendiricileriyle de kıyaslanması gerekiyor. İnsan değerlendiricilerin nitelikleri, ücretleri ve doğruluk kontrol süreçleri gibi spesifik ayrıntılar, sonuçların doğru bir şekilde bağlamsallaştırılması için mühim.
Araştırmacıların belirttiğine göre; yapay zeka sistemi, insan doğruluk kontrolörlerinden yaklaşık 20 kat daha ucuz. DeepMind ekibi, LongFact adı verilen yeni bir kıyaslama ölçütünde Gemini, GPT, Claude ve PaLM-2 olmak üzere 4 aileden en iyi 13 dil modelinin olgusal doğruluğunu değerlendirmek için SAFE'i kullandı. Ortaya çıkan sonuçlar, daha büyük modellerin genellikle daha az olgusal hata ürettiğini gösteriyor. Bununla birlikte, en iyi performans gösteren modeller bile önemli sayıda yanlış iddia üretti.
Önümüzdeki dönemde SAFE gibi otomatik doğrulama araçlarının bu riskleri azaltmada önemli bir rol oynayacağını söyleyebiliriz. Son olarak SAFE'in kodu ve LongFact veri seti GitHub'da açık kaynaklı olarak yayınlandığını belirtelim.
Long-form factuality in large language models başlıklı makalede, Search-Augmented Factuality Evaluator (SAFE) adlı bir yöntem tanıtılıyor. SAFE büyük dil modeli kullanarak, metni tek tek gerçeklere ayırıyor ve ardından her bir iddianın doğruluğunu belirlemek için Google Arama sonuçlarını kullanıyor.Makalenin yazarlarının aktardıklarına göre; SAFE, çok adımlı bir akıl yürütme sürecini kullanarak her bir gerçeğin doğruluğunu değerlendirmek için bir büyük dil modeli (LLM) kullanıyor.
İnsanüstü performans tartışması
Çalışma kapsamında araştırmacılar, yaklaşık 16 bin olgudan oluşan bir veri kümesinde SAFE ile insan değerlendiricileri karşı karşıya getirdi. Bu karşılaştırmada SAFE'in değerlendirmelerinin insan değerlendirmeleriyle yüzde 72 oranında eşleşti. Daha da önemlisi, SAFE ile insan değerlendiriciler arasındaki 100 anlaşmazlıktan oluşan bir örneklemde, SAFE'nin kararının vakaların yüzde 76'sında doğru olduğu tespit edildi. Makalede büyük dil modeli aracılarının insanüstü derecelendirme performansına ulaşabileceği iddia edildi.
Yapay zeka araştırmacılarının bazıları bu insanüstü tanımına karşı çıktı. Zira gerçekten insanüstü bir performanstan bahsedebilmek için SAFE'in yalnızca kitle kaynaklı çalışanlarla değil, uzman insan doğrulama değerlendiricileriyle de kıyaslanması gerekiyor. İnsan değerlendiricilerin nitelikleri, ücretleri ve doğruluk kontrol süreçleri gibi spesifik ayrıntılar, sonuçların doğru bir şekilde bağlamsallaştırılması için mühim.
Büyük modeller daha az hata üretiyor
Araştırmacıların belirttiğine göre; yapay zeka sistemi, insan doğruluk kontrolörlerinden yaklaşık 20 kat daha ucuz. DeepMind ekibi, LongFact adı verilen yeni bir kıyaslama ölçütünde Gemini, GPT, Claude ve PaLM-2 olmak üzere 4 aileden en iyi 13 dil modelinin olgusal doğruluğunu değerlendirmek için SAFE'i kullandı. Ortaya çıkan sonuçlar, daha büyük modellerin genellikle daha az olgusal hata ürettiğini gösteriyor. Bununla birlikte, en iyi performans gösteren modeller bile önemli sayıda yanlış iddia üretti.
Önümüzdeki dönemde SAFE gibi otomatik doğrulama araçlarının bu riskleri azaltmada önemli bir rol oynayacağını söyleyebiliriz. Son olarak SAFE'in kodu ve LongFact veri seti GitHub'da açık kaynaklı olarak yayınlandığını belirtelim.