Gemini 3 Flash'ın görsel muhakeme ile kod yürütmeyi birleştiren yeni yeteneği: Agentic Vision

Teknoloji

Moderator
Google, Gemini 3 Flash için Agentic Vision yeteneklerini duyurdu. Şirket, Gemini gibi ileri seviye modellerin genellikle dünyayı tek bir statik bakışta işlediğini belirtiyor. Bu modeller, mikroçipteki seri numarası veya uzaktaki bir sokak levhası gibi ince ayrıntıları kaçırırlarsa, tahmin yapmak zorunda kalıyor. Gemini 3 Flash'taki Agentic Vision ise görüntü anlamayı statik bir eylemden ajansal bir sürece dönüştürüyor. Agentic Vision'ı Gemini 3 Flash modelinin, cevapları görsel kanıtlara dayandırarak görüntüyle ilgili görevleri daha doğru hale getirmek için geliştirdiği yeni bir yetenek olarak tanımlayabiliriz.

Model, görsel muhakemeyi, Agentic Vision tarafından desteklenen ilk araçlardan biri olan kod yürütme ile birleştirerek, görüntüleri adım adım yakınlaştırmak, incelemek ve işlemek için planlar oluşturuyor. Şirketin belirttiğine göre; Gemini 3 Flash ile kod yürütmeyi etkinleştirmek, çoğu görme ölçütünde (benchmarkında) tutarlı bir şekilde yüzde 5 ila 10 arasında kalite artışı sağlıyor.


Agentic Vision, özellikle “Düşün, Harekete Geç, Gözlemle" döngüsünü kullanıyor. Düşün adımında model, kullanıcı sorgusunu ve ilk görüntüyü analiz ederek çok adımlı bir plan oluşturuyor. Hareket et adımında model, görüntüleri aktif olarak işlemek veya analiz etmek için Python kodu oluşturuyor ve bu kodu çalıştırıyor. Gözlemle adımında ise dönüştürülen görüntü, modelin bağlam penceresine ekleniyor. Bu son adım, modelin nihai yanıtı oluşturmadan önce yeni verileri daha iyi bir bağlamda incelemesini sağlıyor.


Şirketin paylaştığı bilgilere göre Gemini 3 Flash, kendisine verilen bir görüntüyü sadece tanımlamanın ötesinde, kod çalıştırarak doğrudan tuval üzerine çizim yapabiliyor ve böylece mantığını temellendirebiliyor. Bununla beraber, Gemini 3 Flash, görüntüdeki ince ayrıntıları algıladığında yakınlaştırıyor. Agentic Vision'ın yüksek yoğunluklu tabloları ayrıştırabildiği ve bulguları görselleştirmek için Python kodunu çalıştırabildiği de belirtiliyor. Kısacası görsellere zoom yapabilen, bir görselde bulunan elin parmaklarını sayabilen ve aritmetik hesaplar yapabilen bir görme yeteneğinden söz ediyoruz.


Agentic Vision yeteneği, Thinking modeli ile Gemini uygulamasına sunulmaya başlanıyor. Geliştiriciler, bu yeni yeteneğe Google AI Studio ve Vertex AI'daki Gemini API ile erişebilir.
 
Geri
Üst