Google, 15 Nisan 2026'da yapay zeka ses teknolojisinde yeni bir çıta belirledi: Gemini 3.1 Flash TTS. Artık metni sese çevirmek yetmiyor istediğin aksanı, tonu ve duyguyu cümlenin tam ortasında değiştirebiliyorsun.
Geleneksel metin-ses çevirme sistemleri düz, robotik ve tek tonlu konuşurdu. Gemini 3.1 Flash TTS bu anlayışı kökünden değiştiriyor. Metni sese çevirmek yerine, Google bu modeli adeta bir ses yönetmenliği aracına dönüştürdü. 70'ten fazla dil desteği, 30 farklı ses profili ve 200'ü aşan ses etiketi ile birlikte geliyor.
Öne Çıkan Özellikler
Ses Etiketleri Nasıl Çalışıyor?
En çarpıcı yenilik şu: istediğin duyguyu veya tonu metin içinde köşeli parantez içinde belirtiyorsun, model buna göre konuşuyor. Örnek:
Aynı cümle içinde ciddiyet, yavaşlama ve rahatlama geçişleri — tek bir API çağrısıyla. Aksan da dil ayarından değil, stil promptundan geliyor. Yani İngilizce metin yazıp "Londra aksanıyla oku" ya da "Güney ABD şivesiyle oku" diyebiliyorsun.
Mevcut bazı örnek etiketler:
Rakiplerle Kıyaslama
Artificial Analysis TTS sıralaması (insan tercihlerine dayalı Elo puanı):
ChatGPT’ye “Yetişkin Modu” Geliyor – Ama Sıkı Kurallarla

Nereden Kullanılabilir?
Model şu an önizleme olarak erişime açık. Google AI Studio'dan ücretsiz deneyebilirsin, geliştirici ortamı için Gemini API, kurumsal kullanım için Vertex AI ve Google Workspace kullanıcıları için Google Vids entegrasyonu mevcut. Model ID: gemini-3.1-flash-tts-preview
Fiyatlandırma: Ücretli tier: 1 milyon giriş token başına 1 dolar, 1 milyon ses çıkış tokeni başına 20 dolar. Toplu işlem modunda %50 indirim. Ücretsiz tier mevcut ancak bu tier'den gelen veriler model geliştirme için kullanılabiliyor.
Bu model yalnızca bir ses kalitesi güncellemesi değil. Google, metin-ses çevirmeyi sessiz sedasız bir performans sanatına dönüştürüyor. Sesli asistanlar, oyun içi NPC konuşmaları, erişilebilirlik araçları ve içerik üretimi hepsi artık çok daha insan gibi konuşacak.

