Apple, yapay zeka alanında iddialı bir adım atarak FastVLM adını verdiği yeni görsel-dil modelini görücüye çıkardı. Hız, doğruluk ve verimlilikte çıtayı yükselten bu model, görsel ve metin verilerini eş zamanlı olarak işleyerek gerçek zamanlı uygulamalarda çığır açabilir.
Apple, yeni görsel-dil modeli ile geliyor
Apple, FastVLM’i hız, ölçeklenebilirlik ve doğruluk üzerine inşa etti. Modelin en dikkat çekici özelliği, benzer boyuttaki diğer modellere kıyasla 85 kat daha hızlı ve 3,4 kat daha küçük olması. Bu sayede, mobil cihazlardan buluta kadar geniş bir yelpazede sorunsuz çalışabiliyor.
Ayrıca, yüksek çözünürlüklü görselleri işlerken kodlama süresini kısaltarak verimliliği artırıyor. Geliştiricilerin kullanımına açılan modelin 0.5, 1.5 ve 7 milyar parametreli üç farklı sürümü bulunuyor.
Teknik olarak FastVLM, görselleri ve metinleri aynı anda yorumlayabilen hibrit bir transformer mimarisi kullanıyor. Görsel ve metin verileri için ayrı ayrı işleme sistemleri bulunuyor. Bu sistemler, özel bir katmanla birbirine bağlanarak modelin karmaşık soruları yanıtlamasına, yeni kavramları tanımasına ve görsel-metinsel akıl yürütme yeteneklerini geliştirmesine olanak sağlıyor.
WebGPU desteği sayesinde FastVLM, herhangi bir ek kurulum gerektirmeden doğrudan tarayıcıda çalışabiliyor. Bu yetenek, özellikle gerçek zamanlı video altyazı oluşturma ve canlı sahne analizi gibi uygulamalar için büyük bir avantaj sunuyor.
Modelin potansiyel kullanım alanları oldukça geniş. Sağlık sektöründe tıbbi görüntülerin analizinden perakende sektöründe görsel ürün arama sistemlerine kadar birçok alanda kullanılabiliyor. Ancak FastVLM’in asıl devrimi, akıllı gözlükler gibi giyilebilir teknolojilerde yaşanabilir. Gerçek zamanlı olarak çevreyi analiz edip kullanıcıya bilgi aktarabilen bu model, giyilebilir yapay zeka deneyimini baştan aşağı değiştirebilir.