OpenAI, metinden video oluşturan yapay zeka modeli Sora’yı tanıttı


“İnsanların gerçek dünya etkileşimi gerektiren sorunları çözmelerine yardımcı olan modelleri eğitmek amacıyla, yapay zekaya hareket halindeki fiziksel dünyayı anlamayı ve simüle etmeyi öğretiyoruz.” diyen OpenAI, metinden video oluşturan yapay zeka modeli Sora’yı tanıttı.

Sora, görsel kaliteyi ve kullanıcının isteklerine bağlılığı koruyarak bir dakikaya kadar uzunlukta videolar oluşturabiliyor. Kritik alanları zararlar veya riskler açısından değerlendirmek üzere OpenAI’ın kırmızı takım üyelerinin kullanıma sunulan Sora, modelin yaratıcı profesyoneller için en yararlı olacak şekilde nasıl geliştirilebileceği konusunda geri bildirimler için bir dizi görsel sanatçının, tasarımcının ve film yapımcısının da kullanımına sunuldu.

Sora ile oluşturulan video örneklerine buradan göz atabilirsiniz.


OpenAI tarafından aktarılan bilgilere göre Sora, birden fazla karakterin, belirli hareket türlerinin ve konu ile arka planın doğru ayrıntılarının yer aldığı karmaşık sahneler oluşturabiliyor. Model, yalnızca kullanıcının istemde ne istediğini değil, aynı zamanda bu şeylerin fiziksel dünyada nasıl var olduğunu da anlıyor.

Model, istemleri doğru bir şekilde yorumlayabilmesine ve canlı duyguları ifade eden ilgi çekici karakterler oluşturabilmesine olanak tanıyan derin bir dil anlayışına sahiptir. Sora ayrıca tek bir videoda karakterleri ve görsel stili doğru bir şekilde koruyan birden fazla çekim oluşturabiliyor.

OpenAI, mevcut modelin zayıf yönleri olduğunu belirtiyor. Karmaşık bir sahnenin fiziğini doğru bir şekilde simüle etmekte zorlanabiliyor ve belirli neden-sonuç öreklerini anlayamayabiliyor. Örneğin, bir kişi bir kurabiyeden bir ısırık alabilir ancak sonrasında kurabiyede herhangi bir ısırık izi kalmayabilir. Şirket, modelin aynı zamanda bir istemin uzamsal ayrıntılarını da karıştırabileceğini ve belirli bir kamera yörüngesini takip etmek gibi zaman içinde meydana gelen olayların kesin açıklamalarında zorluk yaşabileceğini söylüyor.

Sora güvenli mi?

“Sora’yı OpenAI ürünlerinde kullanılabilir hale getirmeden önce birkaç önemli güvenlik adımı atacağız.” diyen OpenAI, modeli düşmanca test edecek kırmızı ekip üyeleriyle çalıştıklarını belirtti.

“Sora güvenli mi?” sorusuna OpenAI tarafından verilen cevap şu şekilde:

“Sora’yı OpenAI ürünlerinde kullanılabilir hale getirmeden önce birkaç önemli güvenlik adımı atacağız. Modeli düşmanca test edecek kırmızı ekip üyeleriyle (yanlış bilgi, nefret dolu içerik ve önyargı gibi alanlarda alan uzmanları) çalışıyoruz.

Ayrıca, bir videonun Sora tarafından ne zaman oluşturulduğunu anlayabilen bir algılama sınıflandırıcısı gibi yanıltıcı içeriğin tespit edilmesine yardımcı olacak araçlar da geliştiriyoruz. Modeli bir OpenAI ürününde dağıtırsak gelecekte C2PA meta verilerini dahil etmeyi planlıyoruz .

Dağıtıma hazırlanmak için yeni teknikler geliştirmemize ek olarak, DALL·E 3 kullanan ürünlerimiz için geliştirdiğimiz ve Sora için de geçerli olan mevcut güvenlik yöntemlerinden yararlanıyoruz .

Örneğin, bir OpenAI ürününe girdikten sonra metin sınıflandırıcımız, aşırı şiddet, cinsel içerik, nefret dolu görüntüler, ünlü benzerliği veya başkalarının fikri mülkiyetini talep edenler gibi kullanım politikalarımızı ihlal eden metin girişi istemlerini kontrol edecek ve reddedecektir. Ayrıca, kullanıcıya gösterilmeden önce kullanım politikalarımıza uygun olduğundan emin olmak için oluşturulan her videonun karelerini incelemek için kullanılan güçlü görüntü sınıflandırıcıları da geliştirdik.

Kaygılarını anlamak ve bu yeni teknolojinin olumlu kullanım örneklerini belirlemek için dünyanın dört bir yanındaki politika yapıcılar, eğitimciler ve sanatçılarla iletişime geçeceğiz. Kapsamlı araştırma ve testlere rağmen, insanların teknolojimizi kullanacakları tüm yararlı yolları veya onu kötüye kullanacakları tüm yolları tahmin edemiyoruz. Bu nedenle, gerçek dünyadaki kullanımdan öğrenmenin, zaman içinde giderek daha güvenli hale gelen yapay zeka sistemleri oluşturmanın ve piyasaya sürmenin kritik bir bileşeni olduğuna inanıyoruz.”

Araştırma teknikleri

“Sora, statik gürültü gibi görünen bir videoyla başlayarak bir video oluşturan ve birçok adımda gürültüyü kaldırarak kademeli olarak dönüştüren bir difüzyon modelidir.” diyen OpenAI, Sora’nın tüm videoları aynı anda oluşturma veya oluşturulan videoları daha uzun hale getirecek şekilde genişletme yeteğine sahip olduğunu belirtti.

OpenAI tarafından paylaşılan araştırma teknikleri ve açıklama şu şekilde:

“Sora, statik gürültü gibi görünen bir videoyla başlayarak bir video oluşturan ve birçok adımda gürültüyü kaldırarak kademeli olarak dönüştüren bir difüzyon modelidir.

Sora, tüm videoları aynı anda oluşturma veya oluşturulan videoları daha uzun hale getirecek şekilde genişletme yeteneğine sahiptir. Modele aynı anda birçok karenin öngörüsünü vererek, bir nesnenin geçici olarak görüş alanı dışına çıksa bile aynı kalmasını sağlama gibi zorlu bir sorunu çözdük.

GPT modellerine benzer şekilde Sora, üstün ölçeklendirme performansının kilidini açan bir transformatör mimarisi kullanır.

Videoları ve görselleri, her biri GPT’deki bir simgeye benzeyen, yama adı verilen daha küçük veri birimlerinin koleksiyonları olarak temsil ediyoruz. Verileri temsil etme şeklimizi birleştirerek, difüzyon transformatörlerini farklı süreler, çözünürlükler ve en boy oranlarına yayılan, daha önce mümkün olandan daha geniş bir görsel veri yelpazesi üzerinde eğitebiliriz.

Sora, DALL·E ve GPT modellerinde geçmiş araştırmalara dayanmaktadır. Görsel eğitim verileri için oldukça açıklayıcı başlıklar oluşturmayı içeren DALL·E 3’ün yeniden başlık oluşturma tekniğini kullanır. Sonuç olarak model, oluşturulan videoda kullanıcının metin talimatlarını daha sadık bir şekilde takip edebiliyor.

Model, yalnızca metin talimatlarından bir video oluşturabilmenin yanı sıra, mevcut bir hareketsiz görüntüyü alıp ondan bir video oluşturabilir, görüntünün içeriğini doğrulukla ve küçük ayrıntılara dikkat ederek canlandırabilir. Model ayrıca mevcut bir videoyu alıp genişletebilir veya eksik kareleri doldurabilir.

Sora, gerçek dünyayı anlayabilen ve simüle edebilen modeller için bir temel görevi görüyor; bu yeteneğin Yapay Genel Zeka’ya ulaşmada önemli bir kilometre taşı olacağına inanıyoruz.”