OpenAI, konuşma teknolojilerinde yeni bir döneme imza atan gpt-realtime modelini duyurdu. Bu yeni model, önceki versiyonlara kıyasla çok daha gelişmiş özellikler sunarken, maliyetlerde de önemli bir düşüş sağlıyor. Hem doğal ses üretiminde hem de karmaşık talimatları anlama kapasitesinde üstün performans vaat eden gpt-realtime, yapay zeka destekli ses teknolojilerindeki sınırları zorluyor.
Daha Doğal ve İfade Dolu Sesler
gpt-realtime modeli, kullanıcı deneyimini artırmak için ses üretiminde önemli geliştirmeler içeriyor. İlk lansmanda sunulan altı ses seçeneğine ek olarak, kısa süre içinde Marin ve Cedar isimli iki yeni ses daha eklendi. Toplam sekiz ses seçeneği artık daha doğal ve akıcı bir şekilde ifade edilebiliyor. OpenAI, yeni seslerin daha gerçekçi ve duygu yüklü olduğunu vurguluyor.
İyileştirilmiş Performans ve Doğruluk
Performans testleri gpt-realtime‘nin ne kadar iddialı olduğunu ortaya koyuyor. Big Bench Audio testinde model, yüzde 82,8 doğruluk elde ederken, Aralık 2024’teki önceki modelin yüzde 65,6 skorunu geride bıraktı. MultiChallenge Audio Benchmark testinde ise skor yüzde 30,5 olarak açıklandı; bu da önceki yüzde 20,6lık oranı aşıyor. Bu başarılar, modelin karmaşık sistem mesajlarını ve geliştirici komutlarını çok daha iyi yorumlayabildiğinin göstergesi.
Realtime API Güncellemeleri ve Fiyat Avantajı
Realtime API de yeni modelle birlikte güncellendi. Artık bu API, uzaktan MCP sunucularını destekleyebiliyor, görsel girdiler alabiliyor ve Session Initiation Protocol (SIP) üzerinden telefon aramalarını yönetebiliyor. Geliştiriciler talimatlarını kaydedip tekrar kullanabilme avantajına da sahip oldular. Tüm bu yeniliklere rağmen, OpenAI fiyat politikasında kullanıcı dostu adımlar attı. gpt-realtime, önceki modele kıyasla yüzde 20 daha uygun fiyata sunuluyor; 1 milyon ses girdi tokeni için fiyat 32 dolar, 1 milyon ses çıktı tokeni için ise 64 dolar seviyesinde sabitlendi.
OpenAI’nin bu yeni modeli, yapay zeka ses teknolojilerinde doğal deneyim ve uygun maliyet arayan geliştiriciler için önemli bir seçenek olarak ön plana çıkıyor. gpt-realtime‘nin sunacağı gelişmeler, gelecekte sesli yapay zeka uygulamalarının çok daha gerçekçi ve kullanıcı dostu olacağını gösteriyor.







