Yapay zeka için yeni kırılma noktası: Haftalarca süren işleri günlere indirecek

Derleyen: SÜEDA İLKER
Kaliforniya merkezli kar amacı gütmeyen kuruluş METR, yapay zeka modellerinin uzun vadeli görevleri ne kadar iyi yerine getirdiğini değerlendirmek için yeni bir metrik geliştirdi. Kodlama, siber güvenlik, genel akıl yürütme ve makine öğrenimi gibi alanlarda yaklaşık 170 gerçek dünya görevi oluşturuldu. Uzman yazılımcıların bu görevleri tamamlama süreleri baz alınarak “insan ölçütü” belirlendi.

Ekip, yapay zeka modellerinin başarısını değerlendirmek için ‘görev tamamlama zaman ufku’ adı verilen bir ölçüm yöntemi geliştirdi. Bu, yapay zekanın belirli bir başarı oranıyla tamamlayabildiği görevlerin, insanlar tarafından ne kadar sürede tamamlandığını gösteriyor.

YAPAY ZEKANIN GELİŞİM HIZI ÜÇ KATINA ÇIKTI
arXiv’de yayımlanan ön baskıya göre, 2019’da OpenAI tarafından sunulan GPT-2 modeli, insan uzmanların bir dakikadan fazla sürede tamamladığı hiçbir görevi başaramadı. Ancak, 2024'te Anthropic tarafından geliştirilen Claude 3.7 Sonnet, insanların 59 dakikada tamamlayacağı görevlerin %50’sini başarıyla yerine getirdi.

Araştırma, 2019’dan bu yana önde gelen 13 yapay zeka modelinin zaman ufkunun her yedi ayda bir iki katına çıktığını ortaya koydu. Özellikle 2024’te bu hızın arttığı ve en yeni modellerin zaman ufkunu yaklaşık her üç ayda bir ikiye katladığı tespit edildi.
METR’ye göre, bu hızla devam ederse yapay zeka, 2029 yılına kadar insanların bir ay sürede tamamladığı görevleri %50 doğruluk oranıyla yerine getirebilir. Araştırma, bir aylık insan emeğinin yeni bir şirket kurmak veya bilimsel keşifler yapmak için yeterli olabileceğini vurguluyor.

"UZUN VADELİ TAHMİNLER GÜVENİLİR DEĞİL"
Toronto Üniversitesi’nden yönetim profesörü Joshua Gans, bu tür tahminlerin çok kesin olmadığını belirtiyor. “Extrapolations are tempting to do, but there is still so much we don’t know about how AI will actually be used for these to be meaningful,” diyerek yapay zekanın gerçek dünyadaki kullanımının hala belirsiz olduğunu ifade ediyor.
Araştırmacılar, %50 başarı oranını tercih etmelerinin sebebinin, veri dağılımındaki küçük değişikliklere karşı en dayanıklı oran olması olduğunu söylüyor. Araştırmaya göre, başarı eşiği %80’e çıkarıldığında zaman ufku ortalaması beş kat azalıyor, ancak genel eğilim değişmiyor.

YAPAY ZEKANIN BAŞARISININ ARDINDA NE VAR?
Son beş yılda büyük dil modellerinin gelişimi büyük ölçüde ölçek artışına bağlıydı. Kullanılan veri miktarı, eğitim süresi ve model parametrelerinin artırılması büyük bir rol oynadı. Ancak METR, zaman ufku ilerlemesinin özellikle mantıksal akıl yürütme, araç kullanımı, hata düzeltme ve görev yürütme sırasında kendi farkındalığını geliştirme gibi unsurlar sayesinde gerçekleştiğini belirtiyor.
Ben West, mevcut yapay zeka ölçütlerinin gerçek dünya görevleriyle tam olarak örtüşmediğini ve zamanla doygunluğa ulaştığını söylüyor. METR’nin yeni ölçüm yöntemi ise yapay zekanın uzun vadeli gelişimini daha iyi yansıtıyor.

GELECEKTE YAPAY ZEKA NASIL ŞEKİLLENECEK?
San Francisco merkezli yapay zeka araştırmacısı Anton Troynikov, organizasyonların yapay zekayı daha etkili kullanmak için daha fazla yatırım yapması gerektiğini savunuyor. Troynikov, görev tamamlama zaman ufkunun mevcut modellerin ekonomik potansiyelini anlamak açısından faydalı olduğunu, ancak yapay zekanın eğitim aldığı konuların dışında ne kadar iyi performans gösterebileceğini tam olarak ölçemediğini belirtiyor.

METR, model ölçeklenmesinin ilerleyen yıllarda fiziksel ve ekonomik sınırlamalara takılabileceğini, ancak algoritmalardaki gelişmelerin yapay zekanın yeteneklerini artırmaya devam edeceğini öngörüyor.
Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar onaylanmamaktadır.