Büyük multimodal dil modeli GPT-4, aslında Cuma gününden beri dolaşan haberlerin aksine, metinden video üretme özelliğini desteklemese de hazır durumda bulunuyor.
GPT-4, metin ve resim girdilerini kabul ederek metin çıktısı üretebiliyor. OpenAI, web sitesinde belirttiği gibi, metin ve fotoğraflar, diyagramlar veya ekran görüntüleri içeren belgeler gibi çeşitli alanlarda GPT-4’ün yeteneklerinin, yalnızca metin girdilerinde olduğu gibi benzer olduğunu açıkladı.
Ancak, bu özellik “araştırma önizlemesi” halinde olduğu için halka açık olarak sunulmayacak.
OpenAI, GPT-4’ün gerçek dünya senaryolarında birçok alanda insanların sahip olduğundan daha az yetenekli olduğunu belirtirken, çeşitli mesleki ve akademik ölçütlere insan seviyesinde performans sergilediğini açıkladı.
Örneğin, GPT-4, bir simüle bar sınavını, test alanların en üst %10’u civarında bir skorla geçti. Buna karşılık, GPT-3.5’in skoru en alt %10 civarındaydı.
Geçmiş Modellere Göre Atılımlar
GPT-4, eski dil modellerinin gücünün ötesine geçerek, yapay zeka hukuk asistanı CoCounsel’in Uniform Bar Exam’ın çoktan seçmeli ve yazılı bölümlerini geçebileceğini iddia eden Casetext’in erken kullanıcılarından biridir.
Casetext’in kurucu ortağı ve baş yenilikçi sorumlusu Pablo Arredondo, “Modelin yalnızca metin üretmekle kalmayıp yorumlama yeteneği, hukuk pratiğinde tam anlamıyla yeni bir çağın habercisidir” şeklinde bir açıklama yaptı.
DLA Piper’ın Amerika Başkanı Frank Ryan da bir basın açıklamasında “Casetext’in CoCounsel’i, kritik ve zaman alıcı görevleri otomatikleştirerek avukatların etkili yönlerine odaklanmasını sağlayarak hukuk pratiğinin nasıl yapıldığını değiştiriyor” dedi.
OpenAI, GPT-4’ü adversarial test programındaki derslerle birlikte ChatGPT’yi kullanarak uyumlu hale getirmek için altı ay harcadıklarını açıkladı ve bunun sonucunda gerçeklik, yönlendirilebilirlik ve koruma sınırlarını aşmama konusunda en iyi sonuçlarını verdiğini belirtti.
Ayrıca GPT-4 eğitim işleminin benzersiz derecede stabil olduğunu ve şirketin önceden doğru bir şekilde tahmin edebildiği ilk büyük model olduğunu ekledi.
“Zümzün güvenilir bir şekilde ölçeklenmesine odaklandıkça, gelecekteki yetenekleri daha önceden tahmin etmek ve hazırlamak için metodolojimizi geliştirmeyi hedefliyoruz – bu, güvenlik açısından kritik bir konu olarak görüyoruz” diye yazdı.
İnce Farklılıklar
OpenAI, GPT-3.5 ve GPT-4 arasındaki farkın bazen belirsiz olabileceğini belirtti. Farklılık, görevin karmaşıklığı yeterli bir seviyeye ulaştığında ortaya çıkıyor. GPT-4, GPT-3.5’ten daha güvenilir ve yaratıcı olup daha nüanslı talimatları ele alabiliyor.
GPT-4, önceki versiyonundan daha fazla özelleştirilebilir. Sabit bir kelime dağarcığı, ton ve stil ile klasik ChatGPT kişiliğinin yerine, OpenAI geliştiricilerin ve yakında ChatGPT kullanıcılarının, yönergeleri “sistem” mesajında belirterek yapay zekanın stilini ve görevini özelleştirebileceğini açıkladı. API kullanıcıları, sınırlar dahilinde kullanıcı deneyimlerini özelleştirmek için sistem mesajlarını kullanabilirler.
Ancak, API kullanıcıları bu özelliği denemek için ilk başta bir bekleme listesiyle sınırlı bir erişim elde edecekler. OpenAI, GPT-4’ün önceki GPT modelleri gibi bazı sınırlamalarının olduğunu da kabul etti. En önemlisi, tamamen güvenilir değil. Gerçek dışı bilgiler ve akıl yürütme hataları yapabilir.
Özellikle yüksek riskli bağlamlarda, dil modeli çıktılarını kullanırken büyük özen gösterilmesi gerektiği konusunda uyarıda bulunan OpenAI, GPT-4’ün tahminlerinde yanılabileceğini ve hatalı sonuçlar verebileceğini de ekledi.
T2V Mevcut Değil
Geçtiğimiz hafta sonu Almanya’da bir Microsoft yöneticisi, bir metinden videoya dönüşüm özelliğinin GPT-4’ün final paketinin bir parçası olacağını öne sürerek GPT’nin yeni sürümü için heyecan yarattı.
Microsoft Almanya’nın baş teknoloji sorumlusu Andreas Braun, cuma günü düzenlenen bir basın etkinliğinde “Çoklu modal modellerin yer alacağı GPT-4’ü önümüzdeki hafta tanıtacağız ve bu modeller tamamen farklı olanaklar sunacak – örneğin videolar” dedi.
Metinden videoya dönüşüm, Enderle Group’un bir danışmanlık hizmetleri firması olan Enderle Group’un başkanı ve ana analisti Rob Enderle’a göre oldukça bozucu olabilir.
“Bu, filmlerin ve TV şovlarının nasıl oluşturulacağını, haber programlarının son derece ayrıntılı kullanıcı özelleştirmesi sağlayan bir mekanizma ile nasıl biçimlendirileceğini radikal şekilde değiştirebilir” diye TechNewsWorld’e söyledi.
Enderle, teknolojinin ilk kullanımlarından birinin senaryo taslaklarından hikaye panoları oluşturmak olabileceğini belirtti. “Bu teknoloji geliştikçe, daha bitmiş bir ürüne daha yakın bir şeye dönüşecek” dedi.
Video Yayılımı
Near Media’nın kurucu ortağı Greg Sterling, metin-videoya dayalı uygulamaların oluşturduğu içeriğin hala temel olduğunu belirtti.
“Ancak metin-videonun çok düşük veya neredeyse hiç maliyetle çok daha fazla video içeriği üretebilecek bir potansiyeli var,” diye açıkladı.
“Video kalitesi ve etkililiği ayrı bir mesele,” diye devam etti. “Ancak bazıları makul olacak, sanırım.”
Açıklayıcı videolar ve temel nasıl yapılır bilgileri, metin-videolar için iyi adaylar olduğunu belirtti.
“Bazı ajansların, KOBİ’lerin siteleri veya YouTube’da sıralama amacıyla kullanması için video oluşturmak için kullanacağını hayal edebilirim,” dedi.
“En azından ilk başta markalı içerik için iyi olmayacak,” diye devam etti. “Sosyal medya içeriği başka bir kullanım örneği. YouTube’daki içerik oluşturucularının izlenme ve reklam geliri elde etmek için hacmi artırmak için kullanacağı görülecektir.”
Deepfakes Tarafından Kandırılmayın
ChatGPT gibi teknolojilerle ilgili potansiyel tehlikelerin olduğu keşfedildiği gibi, metin-video teknolojisi gibi bir teknolojinin de potansiyel riskleri bulunuyor.
Cato Enstitüsü’nden politika analisti Will Duffield, “Bu gibi araçların en tehlikeli kullanım durumları, insanları akrabaları gibi görünen sahte kişilerin veya özellikle savunmasız kişilerin veya kurumların hedef alınmasıdır” diyor.
Ancak, Duffield, etkili “deepfake” üretmek için metin-video kullanma fikrini indirimliyor.
“Geçen yıl Zelenskyy’in teslim olmasına ilişkin Rus deepfake’i gibi iyi kaynaklı saldırıları gördüğümüzde, dünyada yeterli bağlam ve beklenti olduğundan dolayı, sahteciliklerin çürütülmesi gerekiyor,” diye açıklıyor.
“Halk figürlerinin kim olduğuna, ne yaptıklarına, ne bekleyebileceğimize dair çok iyi tanımlanmış fikirlerimiz var,” diye devam ediyor. “Bu nedenle, onları beklenmedik bir şekilde davranırken gösteren medyaları görünce, ona karşı çok eleştirel veya şüpheci olmaya eğilimliyiz.”