Teknotalya

Google'ın Yeni Ses Modeli: Gemini 3.1 Flash TTS ile Yapay Zeka Artık Aksanınla, Tonunla Konuşuyor

Google'ın Yeni Ses Modeli: Gemini 3.1 Flash TTS ile Yapay Zeka Artık Aksanınla, Tonunla Konuşuyor

 

Google, 15 Nisan 2026'da yapay zeka ses teknolojisinde yeni bir çıta belirledi: Gemini 3.1 Flash TTS. Artık metni sese çevirmek yetmiyor  istediğin aksanı, tonu ve duyguyu cümlenin tam ortasında değiştirebiliyorsun.

Geleneksel metin-ses çevirme sistemleri düz, robotik ve tek tonlu konuşurdu. Gemini 3.1 Flash TTS bu anlayışı kökünden değiştiriyor. Metni sese çevirmek yerine, Google bu modeli adeta bir ses yönetmenliği aracına dönüştürdü. 70'ten fazla dil desteği, 30 farklı ses profili ve 200'ü aşan ses etiketi ile birlikte geliyor.

REKLAM

Öne Çıkan Özellikler

🎭 Ses Etiketleri (Audio Tags)
Metne doğrudan gömülü köşeli parantez komutlarıyla ses tonu, hız ve duygu değiştirilebilir. 200'ü aşkın etiket mevcut.
🌍 70+ Dil Desteği
Türkçe dahil 70'ten fazla dilde aynı stil ve aksan kontrolü çalışıyor. Her dil için yerelleştirilmiş ses deneyimi.
🎙️ Çok Konuşmacı Diyalog
Tek bir metin girişinden iki farklı ses karakteriyle doğal diyalog üretiliyor. Podcast, röportaj ve oyun içi konuşmalar için ideal.
🔏 SynthID Filigranı
Üretilen tüm sesler, insan kulağının duyamayacağı dijital filigranla işaretleniyor. Dezenformasyon önleme için önemli bir güvenlik katmanı.

Ses Etiketleri Nasıl Çalışıyor?

En çarpıcı yenilik şu: istediğin duyguyu veya tonu metin içinde köşeli parantez içinde belirtiyorsun, model buna göre konuşuyor. Örnek:

Örnek Kullanım
[ciddi] Hesabınızda şüpheli işlem tespit edildi. [yavaş] Kart numaranızın son dört hanesi 4 3 2 1. [olumlu] Eğer bu işlemi siz yaptıysanız 1'e basın.

Aynı cümle içinde ciddiyet, yavaşlama ve rahatlama geçişleri — tek bir API çağrısıyla. Aksan da dil ayarından değil, stil promptundan geliyor. Yani İngilizce metin yazıp "Londra aksanıyla oku" ya da "Güney ABD şivesiyle oku" diyebiliyorsun.

Mevcut bazı örnek etiketler:

[excited]-[whispers]-[happy]-[serious][slow]-[fast]-[neutral]-[pause]-[cautious]-[positive]

Rakiplerle Kıyaslama

Artificial Analysis TTS sıralaması (insan tercihlerine dayalı Elo puanı):

Dikkatinizi Çekebilir

ChatGPT’ye “Yetişkin Modu” Geliyor – Ama Sıkı Kurallarla

OpenAI’dan Beklenen Duyuru Geldi: OpenAI, uzun süredir ertelenen “Adult Mode” özelliğini...

Google'ın Yeni Ses Modeli: Gemini 3.1 Flash TTS ile Yapay Zeka Artık Aksanınla, Tonunla Konuşuyor

Nereden Kullanılabilir?

Model şu an önizleme olarak erişime açık. Google AI Studio'dan ücretsiz deneyebilirsin, geliştirici ortamı için Gemini API, kurumsal kullanım için Vertex AI ve Google Workspace kullanıcıları için Google Vids entegrasyonu mevcut. Model ID: gemini-3.1-flash-tts-preview

Fiyatlandırma: Ücretli tier: 1 milyon giriş token başına 1 dolar, 1 milyon ses çıkış tokeni başına 20 dolar. Toplu işlem modunda %50 indirim. Ücretsiz tier mevcut ancak bu tier'den gelen veriler model geliştirme için kullanılabiliyor.

Bu model yalnızca bir ses kalitesi güncellemesi değil. Google, metin-ses çevirmeyi sessiz sedasız bir performans sanatına dönüştürüyor. Sesli asistanlar, oyun içi NPC konuşmaları, erişilebilirlik araçları ve içerik üretimi  hepsi artık çok daha insan gibi konuşacak.