Xiaomi yapay zeka ses muhakemesinde dünya birincisi

Xiaomi yapay zeka alanında bir atılım gerçekleştirdi ve Big Model ekibi ses muhakeme teknolojisinin ön saflarında yer alıyor. Xiaomi’nin son modeli, şirketin yapay zeka araştırmalarındaki artan becerisini ortaya koyan dikkate değer bir başarıya imza atarak, OpenAI ve Google gibi sektör devlerini önemli bir ses anlama kriterinde geride bıraktı.

Ekip, resmi Xiaomi Teknoloji hesabı aracılığıyla dünyaca ünlü MMAU (Massive Multi-Task Audio Understanding and Reasoning) değerlendirme listesinin zirvesinde yer aldıklarını duyurdu. Geliştirdikleri model, OpenAI’nin GPT-4o’su (%57,3) ve Google’ın Gemini 2.0 Flash’ından (%55,6) önemli ölçüde daha iyi performans göstererek %64,5’lik rekor bir doğruluk oranına ulaştı.

Devrim Niteliğinde Takviyeli Öğrenme Yaklaşımı

Bu başarıda özellikle dikkat çekici olan şey, gerçekleştirilme hızıdır. DeepSeek-R1’in öncülüğünü takip eden Xiaomi’deki araştırmacılar, takviyeli öğrenme algoritmalarını çok modlu ses anlama görevlerine genişletti ve bunu bir haftalık bir süre içinde gerçekleştirdi.

Bilim insanları, yapay zeka modellerinin bir “deneme-yanılma-ödül” mekanizması aracılığıyla bağımsız olarak öğrenmelerini sağlayan Grup Göreceli Politika Optimizasyonu (GRPO) yöntemini uyguladılar. Bu mekanizma, insan yansımasına ve çok adımlı doğrulamaya benzer muhakeme yeteneklerinin oluşturulmasına olanak tanır.

Projenin baş araştırmacısı Dr. Zhang Wei ekliyor: “Pekiştirmeli öğrenme, özellikle sonuçların üretilmesi ve kontrol edilmesi arasındaki büyük boşluğun üstesinden gelmede iyidir. İşitsel muhakeme tam da böyle bir görevdir ve aktif düşünme, kalıpları ezberlemekten daha verimli sonuçlar yaratır.”

Sesi Tanımaktan Daha Fazlası

Günümüzde yapay zeka uygulamaları sadece ses tanımadan daha fazlasını gerektiriyor. Xiaomi’nin atılımı yapay zekayı mümkün kılıyor:

Kokpit kayıtlarını analiz ederek bir araçtaki olası arızaları belirleme
Müzik performanslarını dinleyerek bir bestecinin ruh halini çıkarmak
Metro istasyonları gibi kalabalık yerlerde çarpışma risklerini öngörün

MMAU test seti, modeli 27 beceri üzerinde test etmek için insan açıklamalı soru-cevap çiftleri ile konuşmadan ortam sesine ve müziğe kadar 10.000 ses klibi kullanır.

Geleneksel Yapay Zeka Yaklaşımlarını Yıkmak

Xiaomi’nin deneyleri, geleneksel yapay zeka geliştirme bilgeliğine meydan okuyan bazı şaşırtıcı bulgular ortaya çıkardı:

Takviyeli öğrenme, yalnızca 38.000 öğeden oluşan bir veri kümesinde denetimli öğrenmeden önemli ölçüde daha iyi performans gösterdi
7B parametreli modelleri, diğer 100B+ parametreli rakip modellerden çok daha küçük olmasına rağmen üstün muhakeme yeteneği göstermiştir
Modeli açık muhakeme süreçleri oluşturmaya zorlamak aslında performansı %3,4 oranında düşürmüştür

64,5’lik doğruluk oranı yüksek olsa da, insan uzmanların %82,23’lük kriterinden daha düşüktür ve bu da iyileştirme için hala çok yer olduğunu göstermektedir.

Açık Kaynak Taahhüdü

Xiaomi’nin herkes için inovasyon felsefesine sadık kalan kuruluş, hem eğitim kodunu hem de model parametrelerini açık kaynaklı hale getirdi. Firma, bu fedakâr davranışıyla dünyanın dört bir yanındaki geliştiricilerin ve araştırmacıların inovasyonunu genişletmesine olanak sağlıyor.

Xiaomi kurucusu ve CEO’su Lei Jun, “Çabalarımızı küresel yapay zeka topluluğuna açarak, gerçek akıllı ses anlayışına yönelik süreci hızlandırmayı hedefliyoruz” dedi. “Bu, yenilikçi teknolojiyi herkes için erişilebilir kılma misyonumuzda attığımız bir başka adımdır.”

Bu teknolojiyi denemek isteyenler için:

Eğitim kodu: GitHub Deposu
Model parametreleri: Kucaklayan Yüz
Teknik rapor: arXiv
İnteraktif Demo: Kendiniz deneyin

Bu atılım, Xiaomi’nin akıllı telefonlardan IoT akıllı ev ürünlerine kadar ürün yelpazesinde yapay zeka özellikleri sunması ve şirketi küresel yapay zeka araştırma arenasında ciddi bir rakip haline getirmesiyle gerçekleşti.

Kaynak IT Home