OpenAI ve Google'ın yapay zeka yarışı: GPT-4o mu, Gemini 1.5 Pro mu önde?

Teknoloji

Moderator
Geçtiğimiz haftalarda tanıtılan OpenAI'ın yüz ifadesinden kişilerin duygularını okuyabilen yeni modeli GPT-4o'dan sizlere bahsetmiştik. GPT-4 iterasyonu GPT-4o kullanıcılar tarafından öylesine ilgiyle karşılandı ki; ChatGPT'nin mobil uygulama geliri, GPT-4o lansmanının ardından arttı. Uygulamanın toplam geliri 900 bin dolara yükselerek, 491 bin dolar olan ortalamasını neredeyse ikiye katladı.

OpenAI, GPT-4o'u duyurduğu bahar güncellemesini Google I/O etkinliğinin öncesine alarak, Google'ın yapay zeka odağındaki duyurularını gölgede bırakmaya çalıştı. Birden fazla alanda pek çok yapay zeka yeniliği duyuran Google ise etkinlikte Gemini 1.5 Pro'nun bağlam penceresini 2 milyon token'a çıkardığını açıkladı.

Geçtiğimiz değerlendirmelerde GPT-4 genellikle diğer modelleri geride bırakırken, Gemini Ultra'nın ise GPT-4'ü pek çok kriterde sollamayı başardığını sizlerle paylaşmıştık. Son gelişmelerden sonra GPT-4o ve Gemini'ın birbirleri karşısında nasıl konumlandığına gelin birlikte bakalım.




GPT-4o, GPT Turbo ve GPT4 karşılaştırması​


GPT-4 Turbo, 128 bin token'lık bağlam penceresine sahip. Yani GPT-4 Turbo'nun bağlam penceresi GPT-4’ün bağlam penceresinin dört katına denk gelmekte. OpenAI'ın paylaştığı bilgilere göre; GPT-4o ses girdilerine 232 milisaniye gibi kısa bir sürede yanıt verebilir. Bu metrik ortalama 320 milisaniye ile bir konuşmadaki insan yanıt süresine yakınlığıyla dikkat çekiyor. GPT-4o İngilizce ve kod metinlerinde GPT-4 Turbo performansıyla eşleşiyor. İngilizce olmayan dillerdeki metinlerde önemli ölçüde iyileşme sağlandığını belirten OpenAI, söz konusu modelin API'da çok daha hızlı ve yüzde 50 daha ucuz olduğunu belirtiyor.

GPT-4o'dan önce, ChatGPT ile konuşmak için Ses Modunu ortalama 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) gecikme süreleriyle kullanabiliyordunuz. GPT-3.5 veya GPT-4 metni alıp metin çıktısı veriyordu. Bunun üzerine üçüncü basit bir model bu metni tekrar sese dönüştürüyordu. GPT-4o ile metin, görüntü ve ses gibi tüm girdiler ve çıktılar aynı sinir ağı tarafından işleniyor.

Gemini sürümleri karşılaştırması: güncel Gemini 1.5 Pro ve Gemini 1.5 Flash​


Google'ın Mayıs ayında yayınladığı yeni bir rapor, güncel Gemini 1.5 Pro ve Gemini 1.5 Flash modellerini, Gemini serisindeki diğer modeller ile karşılaştırıyor. Raporda sunulan Gemini 1.5 Pro, bir önceki Gemini 1.5 Pro Şubat sürümüne göre bir güncelleme olarak karşımıza çıkıyor. Söz konusu model, çoğu yetenek ve kıyaslamada selefinden daha iyi performans göstermekte.

Güncel Gemini 1.5 Pro, Gemini 1.0 Pro ve 1.0 Ultra'yı birbirinden farklı kıyaslamalarda geride bırakıyor. Bununla beraber raporda belirtilenlere göre güncel Gemini 1.5 Pro, eğitmek için önemli ölçüde daha az işlem gerektiriyor. Önceki Gemini 1.5 Pro sürümüyle karşılaştırdığımızda, Mayıs sürümünün çok modlu (multimodal) muhakeme yeteneğiyle öne çıktığını söyleyebiliriz.

Raporda paylaşılan bilgilere göre; aynı şekilde, Gemini 1.5 Flash, Gemini 1.0 Pro ile kıyaslandığında daha iyi performans gösteriyor. Hatta model, birkaç kıyaslamada 1.0 Ultra ile benzer düzeyde performans göstermesiyle dikkat çekiyor.


Raporda paylaşılan veriler, Gemini 1.5 Pro'nun Mayıs güncellemesinin, Şubat'ta yayınlanan Gemini 1.5 Pro'ya kıyasla kaydettiği gelişmeyi gözler önüne sermekte. Özellikle V*Bench kriterinde ciddi bir atılım yaşayan model EgoSchema, MATH, MathVista ve HumanEval değerlendirmelerindeki skorunda da kayda değer bir gelişme gösteriyor.


Uzun bağlam ve içeriklere odaklanan MRCR görevinde GPT-4 Turbo ve Claude 2.1 karşılaştırması​


Çok Yönlü Ortak Referans Çözümü olarak tercüme edebileceğimiz MRCR görevinde, Gemini modellerinin özellikle uzun içeriklerde GPT-4 Turbo ve Claude 2.1'den daha iyi performans gösterdiği görülüyor. Bu görevde modele bir kullanıcı ile model arasında geçen uzun bir konuşma sunuluyor. Konuşma kapsamında kullanıcı şiirler, bilmeceler ve denemeler gibi farklı konularda yazı talep ediyor ve konuşma, modelin yanıtlarıyla devam ediyor. Her konuşmada, konuşmanın geri kalanından farklı konular ve yazı biçimleri içeren iki kullanıcı isteği, rastgele bağlama yerleştiriliyor. Raporda yer alan bilgilere göre; bu görev ile uzun bağlamlarda yapay zekanın muhakeme yetenekleri de ölçülmüş oluyor.


Gemini 1.5 Pro, GPT-4 Turbo'yu yaklaşık 8 bin token'da, Gemini 1.5 Flash ise yaklaşık 20 bin token'da geçmekte. Rapora göre; Google'ın her iki modeli de 1 milyon token'da yaklaşık yüzde 75 ortalama puan elde ediyor. Bununla beraber GPT-4 Turbo'nun performansı, istikrarlı bir şekilde düşmekte. 128 bin token sınırına kadar ulaşan GPT-4 Turbo, burada yaklaşık yüzde 60 puan alıyor. Bağlam uzunluğu 200 bin token'a kadar çıkan Claude 2.1 ise rapora göre; 128 bin token'da yaklaşık yüzde 20 puan almakta.

Hızlı çıktı üretiminde Claude, GPT ve Gemini modelleri karşılaştırması​


Raporda sunulan bir diğer karşılaştırma ise hızlı çıktı üretimine yönelik. Bu karşılaştırmada İngilizce, Japonca, Çince ve Fransızca'da modellerin nasıl performans gösterdiği ölçülüyor.


Paylaşılan bilgilere göre; değerlendirilen dört dilin tamamında Gemini 1.5 Flash, tüm modeller arasında en hızlı çıktı üretimini gerçekleştiriyor. Model, Gemini 1.5 Pro, GPT-4 Turbo, Claude 3 Sonnet ve Claude 3 Opus'tan daha hızlı üretim gerçekleştirmekte. İngilizce sorgular için Gemini 1.5 Flash saniyede 650'den fazla karakter üreterek değerlendirilen modeller arasında en hızlı ikinci model olan Claude 3 Haiku'dan yüzde 30 daha hızlı.

Google'ın paylaştığı raporda daha pek çok karşılaştırma mevcut. Detaylı bir inceleme için raporun tamamını okumanızı öneririz.

GPT-4o, Gemini Ultra 1.0 ve Gemini Pro 1.5 Pro karşılaştırması​


OpenAI'ın yayınladığı blog gönderisinde ise GPT-4o, metin değerlendirmesinde GPT-4 Turbo, GPT-4 (Nisan 2023 sürümü), Anthropic'in Claude 3 Opus modeli, Google'ın Gemini Pro 1.5, Gemini Ultra 1.0 modelleri ve Meta'nın Llama 400b modeli ile karşılaştırılıyor.


Bu karşılaştırmada GPT-4o, Paragrafların İçeriği Üzerine Ayrık Muhakeme olarak tercüme edebileceğimiz DROP değerlendirmesi dışında diğer tüm değerlendirmelerde GPT-4 Turbo'dan daha iyi performans gösteriyor. DROP kriterinde GPT-4o, Cluade 3 Opus ile adeta başabaş giderken, yüzde 78.9 performans gösteren Gemini Pro 1.5'i geride bırakıyor.

Kitlesel Çok Görevli Dil Anlama
olarak tercüme edebileceğimiz MMLU kriterinde GPT-4 yüzde 86.5 alırken, GPT-4o yüzde 88.7 performans gösteriyor. MMLU kriterinde Gemini 1.5 Pro'nun ise yüzde 81.9 performans gösterdiğini görmekteyiz. Burada muhtemelen Şubat sürümü kullanılıyor. Zira Google'ın dokümanlarında da Şubat sürümü için aynı değerin kullanıldığını görüyoruz. Ancak Gemini Pro 1.5'in Mayıs sürümünde bu değer yüzde 85.9 bu da GPT-4o'nun gerisinde kalmakta. Gemini Ultra da yüzde 83.7 performansı ile GPT-4o'nun gerisinde kalıyor.

OpenAI ve Google raporlarını karşılaştırarak hazırladığımız grafik

GPQA (Lisansüstü Düzeyde Google-Proof Soru-Cevap Ölçütü) için GPT4o yüzde 53 ile öne çıkarken, Google araştırmasına göre bu kriterde Gemini 1.5 Pro Mayıs sürümü yüzde 46.2 performans gösteriyor.

MATH ölçütünde ise GPT-4o yüzde 76.6, Gemini 1.5 Pro şubat sürümü yüzde 58.5, Gemini 1.5 Pro Mayıs sürümü yüzde 67.7, Gemini Ultra 1.0 yüzde 53.2 performans göstermekte.

HumanEVAL (Kod Üzerinde Eğitilen Büyük Dil Modellerinin Değerlendirilmesi) ölçütünde GPT-4o yüzde 90.2, Gemini 1.5 Pro Şubat sürümü 71.9, Gemini 1.5 Pro Mayıs sürümü 84.1 olarak karşımıza çıkıyor. Bu kriterde Gemini 1.5 Pro'nun güncel sürümü GPT- 4o ve GPT4 Turbo'nun gerisinde kalmakta. Gemini Ultra ise yüzde 53.2 ile Gemini 1.5 Pro'nun güncel sürümünden geride.

Çok Dilli İlkokul Matematik Ölçütü olarak tercüme edebileceğimiz MGSM'de GPT- 4o ve GPT-4 Turbo sırayla yüzde 90.5 ve yüzde 88.5, Gemini 1.5 Pro Şubat sürümü yüzde 88.7, Gemini Ultra ise yüzde 79 performans gösteriyor.

Ses tercüme modellerine baktığımızda Google'ın AudioPalm-2 ve Gemini modellerinin Meta'nın XLS-R, SeamlessM4T-v2 ve OpenAI'ın Whisper-V3 modelini geride bıraktığını görüyoruz. Buna mukabil, GPT-4o küçük bir farkla Google'ın modellerini geride bırakıyor gibi görünmekte.


Otomatik konuşma tanıma kriterinde GPT-4o ve Whisper-v3 karşılaştırmasında ise GPT-4o'nun farklı dillerde Whisper-v3'den daha iyi performans gösterdiği görülüyor.


Büyük Dil Modellerini değerlendirmek için tasarlanmış çok dilli, çok modlu ve çok düzeyli ölçüt olan M3Exam sonuçları ise GPT-4o'nun GPT-4 modelini geride bıraktığını gözler önüne seriyoTüm bu değerlendirmeler neticesinde GPT4o'nun ağırlıklı olarak daha iyi bir performans sergilediğini söyleyebiliriz. Öte yandan 2 milyon token'lık bağlam penceresine sahip Gemini 1.5 Pro uzun metin ve içeriklerde GPT serisinden daha iyi sonuçlar vermekte.

Yani uzun metin ve içeriklerde Gemini 1.5 Pro'nun 2 milyon token'lık bağlam penceresini kullanabilir, daha gelişmiş bir çok modlu deneyim için Gemini modelleri arasından Gemini 1.5 Pro'nun Mayıs sürümünü tercih edebilirsiniz.

Öte yandan Matematik, Lisansüstü Düzeyde Google-Proof Soru-Cevap Ölçütü ve Kitlesel Çok Görevli Dil Anlama gibi belirttiğimiz kriterlerde GPT-4o tercih edilebilir.

ChatGPT ve Gemini kendi modellerini nasıl karşılaştırıyor?​


Tüm bunların üzerine GPT-4o ve Gemini 1.5 Pro'ya modelleri karşılaştırmalarını istedik. GPT-4o bizim de belirttiğimiz üzere uzun içeriklerde Gemini 1.5 Pro'nun GPT-4 ve GPT-4o'dan daha iyi performans gösterdiğini belirtti:

Gemini 1.5 Pro (2 milyon bağlam penceresi, Mayıs sürümü)​

  1. Bağlam Penceresi: Gemini 1.5 Pro'nun en dikkat çekici özelliği, 2 milyon token'lık geniş bağlam penceresidir. Bu, modelin çok daha geniş bir metin aralığını aynı anda işleyebilmesini sağlar.
  2. Doğal Dil İşleme Yetenekleri: Geniş bağlam penceresi sayesinde, Gemini 1.5 Pro daha karmaşık ve uzun metinleri daha iyi anlayabilir ve bu metinlerdeki bağlamsal ilişkileri koruyabilir. Bu, özellikle uzun belgeler veya çok bölümlü konuşmalar için büyük bir avantajdır.
  3. Kullanım Alanları: Geniş bağlam penceresi sayesinde, Gemini 1.5 Pro, büyük ölçekli doküman analizi, uzun süreli sohbetler, çok bölümlü hikaye yazımı gibi görevlerde üstün performans gösterebilir.

Genel Karşılaştırma​

  • Bağlam Yönetimi: Gemini 1.5 Pro, 2 milyon token'lık bağlam penceresi ile GPT-4 ve GPT-4o'ya göre çok daha geniş bir bağlamı işleyebilir. Bu, özellikle uzun metinlerde ve kompleks bağlamlarda önemli bir avantaj sağlar.
  • Performans ve Kullanım Alanları: GPT-4 ve GPT-4o, genel amaçlı kullanım için güçlü modellerdir ve çok çeşitli görevlerde başarılıdır. Ancak bağlam penceresi sınırlamaları nedeniyle, çok uzun metinlerde bazı bilgileri unutma veya bağlamsal ilişkileri kaybetme riski taşırlar.
  • Özelleştirme ve Optimizasyon: GPT-4o, performans optimizasyonları sunabilirken, Gemini 1.5 Pro'nun geniş bağlam penceresi, daha uzun ve karmaşık görevlerde daha fazla tutarlılık ve bağlamsal doğruluk sağlar.

Gemini Advanced ise şu karşılaştırmayı yaptı:

GPT-4 ve GPT-4o, özellikle dil yeteneği, mantık, muhakeme, kod yazma ve yaratıcılık gibi alanlarda güçlü performans sergileyen çok yönlü dil modelleridir. GPT-4o'nun çok modlu yetenekleri, görsel verilerle çalışmayı gerektiren uygulamalar için avantaj sağlar.

Gemini 1.5 Pro ise devasa bağlam penceresi sayesinde uzun ve karmaşık metinleri anlama ve işleme konusunda rakiplerinden ayrılır. Bu özellik, özellikle büyük ölçekli metin analizi, belge özetleme ve uzun konuşma geçmişlerini takip etme gibi uygulamalar için idealdir.

Hangi modelin sizin için daha uygun olduğuna karar verirken, ihtiyaç duyduğunuz özelliklere ve uygulama alanına göre değerlendirme yapmanız önemlidir.

Önemli Not: Gemini 1.5 Pro henüz genel kullanıma açılmamıştır ve Google tarafından belirli geliştiricilere ve araştırmacılara erişim sağlanmaktadır. Bu nedenle, GPT-4 ve GPT-4o şu anda daha yaygın olarak kullanılabilen seçeneklerdir.

Son olarak Gemini'ın da belirttiği üzere Gemini 1.5 Pro’nun 2 milyon bağlam penceresine sahip Mayıs sürümünün henüz Türkiye’deki kullanıcılara açılmadığını söyleyelim. Ücretsiz ChatGPT kullanıcıları ise Mayıs başında GPT-4o ile eklenen diğer özellikleri de kullanabiliyor.
 
Geri
Üst