Google I/O 2024 geliştirici etkinliğinde yüksek kaliteli 1080p videolar üretebilen Veo ve en son metinden resme modeli olan Imagen 3 ile karşımıza çıktı. Özellikle Google Veo’nun OpenAI Sora modeline, Imegen 3’ün ise Dall-E 3‘e karşı rakip olarak çıkartıldığını belirtelim.
Google, Veo’nun aklınızdaki videoyu oluşturabilecek “gelişmiş bir doğal dil ve görsel anlambilim anlayışına” sahip olduğunu iddia ediyor. Yapay zeka tarafından oluşturulan videolar “bir dakikadan fazla” sürebilecek. Veo aynı zamanda hızlandırılmış (timelapse) kavramı gibi sinematik ve görsel teknikleri de anlama yeteneğine de sahip.
Veo’nun sanatçının işlerini çalmak niyetinde olmadığını kanıtlamak için Google, modelin yeteneklerini göstermek üzere Donald Glover ve yaratıcı stüdyosu Gilga ile de ortaklık kurdu. Kısa bir tanıtım videosunda, Glover ve ekibinin metin kullanarak üstü açık bir arabanın Avrupa’daki bir eve varışını ve okyanusta süzülen bir yelkenliyi gösteren bir video oluşturduğunu görüyoruz. Google’a göre Veo, gerçek dünya fiziğini önceki modellerine göre daha iyi simüle edebiliyor ve aynı zamanda yüksek çözünürlüklü görüntüleri işleme biçimini de iyileştiriyor.
Google Imagen 3 Neler Sunuyor?
Google Imagen 3’ün “fotogerçekçi, gerçeğe yakın görüntüler” ve daha az yapaylık için “inanılmaz düzeyde ayrıntıya” sahip “en yüksek kaliteli” metinden resme modeli olduğu söyleniyor. Google, Imagen 3’ün metni eskisinden daha iyi işlediğini ve aynı zamanda uzun istemlerden gelen ayrıntıları ele alma konusunda daha akıllı olduğunu ifade ediyor.
Bakalım, yapay zeka tabanlı medya oluşturma savaşlarının kazananı kim olacak?