OpenAI'ın insan seslerini klonlayan motoru: Voice Engine

Teknoloji · 1 Nis 2024

OpenAI bu hafta, metinden konuşmaya yapay zeka modeli olan Voice Engine'a yönelik çalışmalarını paylaştı. Voice Engine, kaydedilen sesin 15 saniyelik bir bölümüne dayanarak sentetik sesler oluşturuyor. Kullanıcılar, bir sesi klonlandıktan sonra, Ses Motoruna metin girerek yapay zeka tarafından oluşturulmuş bir ses çıktısı elde etti.

Şu an için OpenAI'ın bu teknolojisi, geniş kapsamlı bir şekilde kullanıcılara sunulmaya hazır değil. Aslına bakarsanız, bu ayın başlarında şirket, geliştiricilerin Voice Engine API'sine kaydolmaları için bir pilot program başlatmayı planlıyordu. Ses klonlama teknolojisinin doğuracağı sonuçları düşünen OpenAI, şimdilik hedeflerini küçültmeye odaklandı. Bu anlamda Voice Engine önizleme sürümü üzerinden kullanıcılarla buluşuyor.

Şimdiye kadar bu alanda OpenVoice ve XTTSv2 gib yapay zeka ses sentezi modellerinin ön planda olduğunu söyleyebiliriz. OpenAI'ın da Voice Engine ile bu alanda faaliyet göstermesi ve özellikle bu konuda temkinli davranması dikkate değer. OpenAI'ın ifadesine göre; Voice Engine, küçük bir yapay zeka modeli olarak konumlanıyor.

OpenAI'ın aktardıklarına göre; Voice Engine'ın faydaları arasında doğal sesler aracılığıyla okuma yardımı sağlama, yerel aksanları korurken içeriği çevirerek içerik oluşturucular için küresel erişim sağlama yer alıyor. Bununla beraber söz konusu teknoloji, kişiselleştirilmiş konuşma seçenekleriyle sözel olmayan bireyleri destekleme ve konuşmayı bozan koşullardan sonra hastaların kendi seslerini geri kazanmalarına yardımcı olmaya da destek olabilir.

Paylaşılan bilgilere göre; OpenAI Voice Engine teknolojisini 2022'nin sonlarında geliştirdi. Bu kapsamda pek çok kişi teknolojinin önceden tanımlanmış (ve klonlanmamış) seslere sahip bir versiyonunu iki farklı şekilde kullanmakta. Bunlardan ilki, Eylül ayında piyasaya sürülen ChatGPT uygulamasındaki sözlü konuşma modu. Diğeri ise OpenAI'ın geçen yılın Kasım ayında piyasaya sürülen metinden konuşmaya API'ı.

OpenAI'ın ses klonlama teknolojisine yaklaşımı

Öte yandan herkes, birinin 15 saniyelik ses kaydına sahip olduğu sürece istediği sesi klonlayabilir. Ocak ayında, New Hampshire sakinlerinden bazılarının, Başkan Joe Biden'ın sesinin, yapay zeka desteğiyle taklit edildiği bir arama aldığını düşünürsek, OpenAI'ın temkinli yaklaşımını anlamlandırabiliriz. Vatandaşlara, eyaletin başkanlık ön seçimleri için sandık başına gitmemeleri söylendiği aramanın akabinde ABD'de yapay zeka destekli seslerin robotik aramalarda kullanımı yasaklandı.

OpenAI da paylaştığı blog gönderisinde toplumun bu teknolojiye uyum sağlamak için nasıl değişmesi gerektiğine dair üç öneride bulundu. Bu öneriler arasında banka hesapları için ses tabanlı kimlik doğrulamanın aşamalı olarak kaldırılması yer alıyor. Aynı şekilde kamuoyunun aldatıcı yapay zeka içeriği olasılığını anlama konusunda eğitilmesi ve ses içeriğinin kaynağını izleyebilen tekniklerin geliştirilmesinin hızlandırılması da öneriliyor.

OpenAI'ın paylaştıklarına göre gelecekteki ses klonlama teknolojisi, orijinal konuşmacının sesini bilinçli olarak hizmete eklediğini doğrulamalı. Bununla beraber, ses klonlama teknolojisi kapsamında tanınmış kişilere çok benzeyenler gibi klonlanması yasak olan seslerin bir listesi oluşturulmalı.

OpenAI'ın insan seslerini klonlayan motoru: Voice Engine

Teknoloji

Moderator

OpenAI'ın ses klonlama teknolojisine yaklaşımı​

OpenAI'ın ses klonlama teknolojisine yaklaşımı