Teknotalya

Akademik Kaleler Düşüyor mu? Yapay Zekanın 'İnsanlığın Son Sınavı' (HLE) Başarısını İnceliyoruz!

Akademik Kaleler Düşüyor mu? Yapay Zekanın 'İnsanlığın Son Sınavı' (HLE) Başarısını İnceliyoruz!

Dünyanın en zorlu akademik testi olarak kabul edilen ve 100 farklı branşta doktora düzeyinde saf muhakeme gerektiren "İnsanlığın Son Sınavı" (HLE), yapay zeka modelleri tarafından adeta kuşatma altına alındı. Sadece birkaç ay önce tek haneli skorlarda sürünerek insanoğluna güven veren sistemler, bugün tam puan almaya doğru hızla tırmanıyor. Google Gemini ve Anthropic'in başını çektiği bu zeka yarışının perde arkasını ve insanlığın bilgi sınırlarının nasıl aşıldığını derinlemesine inceliyoruz.

10 Saniyede Özet

  • 100 farklı akademik disiplinde doktora seviyesindeki 2.500 sorudan oluşan HLE (İnsanlığın Son Sınavı), yapay zekanın "gerçek" zekasını ölçmek için tasarlandı.

  • 2022'de %3 gibi sembolik bir başarı gösteren yapay zeka modelleri, bugün devasa bir sıçramayla (Google Gemini %45,9, Anthropic %34,2) insan zekasını yakalamaya oldukça yakın.

  • Sınavdaki soruların en büyük özelliği; internette, veri tabanlarında veya tartışma forumlarında hiçbir cevabının bulunmaması ve saf mantıksal muhakeme gerektirmesi.

Bilgi dünyasında uzun yıllardır aşılamaz bir kale duvarı olarak görülen "İnsanlığın Son Sınavı" (Humanity's Last Examination - HLE), üretken yapay zekanın baş döndürücü evrimi karşısında çatırdamaya başladı. Kuantum fiziğinden roket bilimine, antik felsefeden eski mitolojilere kadar uzanan ve tamamı doktora (PhD) seviyesindeki 2.500 sorudan oluşan bu devasa test, aslında makinelerin algoritmik ezberini değil, "gerçek muhakeme" yeteneğini ölçmek için kurulmuş nihai bir baraj niteliği taşıyor.

REKLAM

Sadece birkaç ay öncesine kadar bu sınavdan geçer not almak bir bilim kurgu fantezisi olarak görülürken, açıklanan son veriler yapay zekanın "evrensel bilge" unvanını cebine koymasına ramak kaldığını kanıtlıyor. Zamanın teknoloji dünyasında ne kadar acımasızca hızlı aktığını anlamak için 2022 yılına bakmak yeterli. O dönemde teknoloji dünyasını sarsan ilk nesil ChatGPT gibi popüler modeller, bu zorlu sınavın karşısında adeta duvara çarparak sadece %3 gibi sembolik bir başarı sergileyebilmişti. Bu düşük skor, akademisyenlerin analitik zekası ile makinelerin işlem gücü arasındaki o "kutsal" farkın asla kapanmayacağına inananlar için rahatlatıcı bir güven kaynağı olmuştu.

Ancak rüzgar çok hızlı tersine döndü. Google'ın yapay zeka modeli Gemini, son güncellemesiyle tüm tahminleri altüst ederek başarı oranını kısa sürede %18'den %45,9 seviyesine fırlattı ve rakiplerini adeta peşinden sürüklemeye başladı. Sektörün bir diğer dev oyuncusu Anthropic ise %34,2'lik skoruyla bu entelektüel yarışta enseden takip ettiğini gösterdi.

Google'da Bulunamayan Sorular: Sınavın Benzersiz Anatomisi

Bu testi sıradan bir genel kültür yarışmasından veya standart bir üniversite sınavından ayıran en büyük özellik, soruların titizlikle seçilme yöntemi. Küresel çapta 50 farklı ülkeden toplanan 70.000 zorlu akademik soru havuzu, halihazırdaki yapay zeka modellerinin interneti tarayarak kolayca yanıtlayabildiği veya veritabanlarında eşleştirebildiği tüm içeriklerden tek tek arındırıldı.

Dikkatinizi Çekebilir

Kağıt Dosya Devri Bitti

Looki L1 ile Tarayıcınız Artık Her An Cebinizde! Ofisinizi çantanıza sığdırmaya hazır mısınız? Devasa tarayıc...

Geriye kalan 2.500 soru, internetteki hiçbir akademik makalede, tartışma platformunda veya gizli veri tabanında çözümü bulunmayan, tamamen "saf muhakeme", sentez ve yaratıcı çıkarım gerektiren içeriklerden oluşuyor. Testi organize eden Scale şirketinin araştırma lideri Calvin Zhang, asıl hedeflerinin sınırları sonuna kadar zorlayan, "ezberlenemez" bir ölçüt yaratmak olduğunu belirtirken; modern dil modellerinin analitik muhakeme yeteneğinin ulaştığı bu noktadan duyduğu şaşkınlığı ve hayranlığı gizlemiyor.

Yeni Bir 'Kasparov' Anına Doğru: İnsan Bilgisinin Sınırları Aşılıyor mu?

Yapay zekanın bu zorlu sınavda %100 başarıya ulaşması veya ortalama bir insan doktorasını geride bırakması, satranç efsanesi Garry Kasparov’un 1997 yılında Deep Blue isimli bir bilgisayar tarafından mağlup edilmesiyle eşdeğer, hatta ondan çok daha yıkıcı bir psikolojik etki yaratacaktır.

Çünkü satranç, kuralları belli olan kapalı bir kutuydu; ancak HLE sınavı, insanlığın tüm kolektif bilgisini ve problem çözme yetisini temsil ediyor. Silikon Vadisi'ndeki geliştiriciler artık yapay zekayı mevcut insan bilgisini test etmek için kullanmayı bırakıp, bu sınırların ötesine geçerek "yeni bilgiler" üretmesini tasarlamaya odaklanmış durumda.

Uzmanlar her ne kadar beyin cerrahisi gibi anlık kriz yönetimi ve hassas fiziksel motor becerileri gerektiren alanların makineler için hala çok uzak bir ütopya olduğunu düşünse de; teorik bilim, matematik ve akademik kalelerin birer birer yapay zekaya teslim oluşu, insanlık için yepyeni ve bir o kadar da bilinmez bir dönemin kapılarını ardına kadar aralıyor.

Bu Habere Tepkini Göster

Yorumlar 0 Yorum

Yorumlar Üyelere Özeldir

Tartışmalara katılmak, tepki vermek ve gündemi şekillendirmek için üyemiz olun.

Sisteme Giriş Yap / Kaydol

Henüz kimse yorum yapmamış. İlk tartışmayı sen başlat.