Yapay zekanın özellikle dil modelleri alanındaki başarıları, teknoloji dünyasında geniş bir etki yaratmaya devam ediyor. Kodlama, içerik üretimi ve veri analizi gibi alanlarda dikkat çeken yapay zeka uygulamaları, tarihsel sorularda beklenen başarıyı yakalayamıyor. Yeni bir araştırma, yapay zeka modellerinin tarihsel sorulara verdiği yanıtların, özellikle derinlemesine tarihsel bilgi gerektiren konularda hayal kırıklığı yarattığını ortaya koydu.
Avusturya merkezli Complexity Science Hub (CSH) araştırmacıları tarafından gerçekleştirilen bu çalışma, üç büyük dil modelini (LLM) test etti: OpenAI’nin GPT-4, Meta’nın Llama’sı ve Google’ın Gemini’si. Araştırmacılar, bu modelleri, antik Mısır’dan Orta Çağ’a kadar uzanan geniş bir tarihsel veri bankasına dayanan Seshat Küresel Tarih Veri Bankası’na karşı değerlendirdi. Ancak sonuçlar, özellikle tarihsel doğruluk konusunda oldukça zayıf kaldı.
Hedef: Derin Tarihsel Anlayış
Geçtiğimiz ay NeurIPS konferansında sunulan sonuçlar, araştırmacılara göre beklenenin çok altında kaldı. En iyi performansı gösteren GPT-4 Turbo, yalnızca %46 doğruluk oranına ulaşarak, bazı durumlarda rastgele bir tahminden daha iyi sonuçlar gösteremedi. Bu bulgu, yapay zeka modellerinin tarihsel sorularda temel bilgileri hatasız şekilde verebilse de, daha karmaşık ve derinlemesine soruşturmalarda yetersiz kaldığını ortaya koyuyor.
Araştırmanın ortak yazarlarından biri ve University College London’da bilgisayar bilimi doçenti olan Maria del Rio-Chanona, bu durumu şöyle açıkladı: “LLM’ler, temel gerçekler konusunda oldukça başarılılar ancak derin tarihsel analiz gerektiren sorularda hâlâ büyük eksiklikler gösteriyorlar.”
Yanıltıcı Cevaplar ve Tarihsel Bağlam Eksiklikleri
Örnek olarak, araştırmacılar GPT-4 Turbo’ya antik Mısır’da belirli bir dönemde ölçekli zırhın var olup olmadığını sordu. Modelin cevabı, “Evet” oldu; ancak tarihsel veriler, zırhın Mısır’da ancak 1.500 yıl sonra kullanılmaya başlandığını gösteriyor. Benzer şekilde, GPT-4’e antik Mısır’da profesyonel bir ayakta ordunun olup olmadığı sorulduğunda da model yanlış cevap verdi.
Del Rio-Chanona, bu hataların sebeplerinden birinin, dil modellerinin daha belirgin ve yaygın verilerden çıkarım yapma eğiliminde olmaları olduğuna dikkat çekti. Yani, genellikle iyi bilinen tarihi bilgiler üzerinden tahmin yaparak daha az yaygın, belirsiz veya özgün verilerle karşılaştığında zorlanıyorlar.
Eğitim Verilerindeki Eksiklikler ve Önyargılar
Araştırma ayrıca, OpenAI ve Llama modellerinin, Sahra Altı Afrika gibi az temsil edilen bölgelerde daha düşük doğruluk oranları sergilediğini ortaya koydu. Bu durum, eğitim verilerinin çeşitliliğindeki eksikliklerin ve potansiyel önyargıların bir göstergesi olarak değerlendiriliyor. Verilerin dar bir kaynağa dayanması, yapay zekanın evrensel doğruluk sağlamasını engelliyor.
Gelecek İçin Umut Var mı?
Tüm bu olumsuz sonuçlara rağmen, araştırmacılar LLM’lerin tarihsel araştırmalara yardımcı olma potansiyelini görmeye devam ediyor. Araştırma ekibi, daha karmaşık sorular ve daha geniş veri kümeleri ile yapılan iyileştirmelerin, yapay zekanın tarihsel araştırmalardaki etkinliğini artırabileceği görüşünde. Peter Turchin, “Yapay zeka, tarihsel analizlerde insanları tam anlamıyla yerine koyamasa da, doğru verilerle gelecekte tarihçilere değerli bir yardımcı olabilir” dedi.
Makalede, bu doğrultuda “Sonuçlarımız, LLM’lerin iyileştirilmesi gereken alanları vurgularken, aynı zamanda bu modellerin tarihsel araştırmalara yardımcı olma potansiyelinin de altını çiziyor” ifadeleri yer alıyor.
Tarihsel Zeka Henüz Uzak
Yapay zeka, çok sayıda alanda insan zekasına yakın seviyelere ulaşırken, tarihsel sorulara verdiği yanıtlarla halen büyük bir gelişim sürecinde. Yapay zekanın tarihsel alanlarda daha fazla veri, daha derinlemesine analizler ve çeşitlendirilmiş eğitim verileri ile güçlendirilmesi gerektiği aşikâr. Bu da, tarihsel araştırmaların henüz yapay zeka için doğru şekilde anlamlandırılamayan bir alan olduğunu gösteriyor.