MUM (Multimodal)
Fundamenty teoretyczneMultitask Unified Model – multimodalny system Google rozumiejący tekst, obrazy i wideo w 75 językach jednocześnie. MUM analizuje złożone zapytania wieloetapowe, np. 'czy buty trekkingowe z Fuji nadają się na Kilimanjaro?'.
W praktyce MUM reprezentuje kierunek SEO – od optymalizacji tekstowej do multimodalnej. Embeddingi, będące fundamentem MUM, pozwalają porównywać semantycznie tekst z obrazem, wideo czy audio. MUM jest 1000x potężniejszy od BERT i działa w 75 językach, co oznacza, że treść w jednym języku może wpływać na rankingi w innym.
W praktyce optymalizuj nie tylko tekst, ale też atrybuty alt obrazów i opisy wideo – MUM analizuje je łącznie. W erze multimodalnej AI Search treść zdjęcia lub wideo może być cytowana razem z tekstem, co otwiera nowe możliwości dla Information Gain.