Google’ın yeni yapay zekası, metinleri müziğe dönüştürüyor

Google araştırmacıları, metin komutlarından dakikalar süren müzik kesimleri üretebilen ve hatta DALL-E üzere sistemlerin yazılı komutlardan imgeler üretmesine emsal formda ıslık çalınan yahut mırıldanılan bir melodiyi diğer enstrümanlara dönüştürebilen bir yapay zeka geliştirdiler. Bu yapay zeka, Model MusicLM olarak isimlendiriliyor.

Şirket, modeli kullanarak ürettiği bir küme örneği paylaştı. Örnekler epeyce etkileyici. Bir çeşidi, havayı ve hatta belli enstrümanları belirten paragraf uzunluğundaki açıklamalardan oluşturulan gerçek müziklere benzeyen 30 saniyelik parçacıkların yanı sıra “melodik tekno” üzere bir yahut iki sözden oluşturulan 5 dakikalık kesimler da var.

electronic song played in a videogame (0:00-0:15)
meditation song played next to a river (0:15-0:30)
fire (0:30-0:45)
fireworks (0:45-0:60)

Yukarıdaki komutlar verildiğinde sonuç olarak burada dinleyebileceğiniz ses ortaya çıkıyor.

Bu elbette şimdilik herkes için uygun olmayabilir, lakin bunun yapay zekanın kilometre taşlarından biri olduğu açık. Çünkü bir insan tarafından bestelendiğinin düşünülmesini sağlayabiliyor. Demo sitesinde ayrıyeten modelin çello yahut marakas üzere enstrümanların 10 saniyelik kliplerini üretmesi istendiğinde ne ürettiğine dair örnekler, makul bir tıbbın 8 saniyelik klipleri, bir hapishane kaçışına uyacak müzik ve hatta yeni başlayan bir piyanistin ileri seviye bir piyaniste karşı nasıl çalacağı da yer alıyor. Ayrıyeten “fütüristik kulüp” ve “akordeon death metal” üzere tabirlerin yorumlarını da içeriyor.

MusicLM insan vokallerini bile simüle edebiliyor ve her ne kadar seslerin tonunu ve genel sesini yanlışsız yakalıyor üzere görünse de, seslerde katiyetle kusurlu bir kalite var. (En azından şimdilik.) Bunu tanımlayabilmemin en güzel yolu, seslerin grenli yahut durağan olması. Bu kalite üstteki örnekte o kadar net değil, lakin bizce bu örnek bunu epey âlâ gösteriyor.

Şarkı kelamlarının saçma olduğunu da fark etmiş olabilirsiniz, fakat dikkat etmediğinizde fark edemeyeceğiniz bir halde – “Simlish” lisanında müzik söyleyen birini yahut İngilizce üzere görünmesi gereken lakin İngilizce olmayan bir şarkıyı dinliyormuşsunuz üzere.

Google’ın bu sonuçları nasıl elde ettiğini biliyormuş üzere davranmayacağız, lakin bunu anlayabilecek tipten biriyseniz, burada detaylı olarak açıklayan bir araştırma makalesi mevcut.

Bir cevap yazın