MTEB Leaderboard
EmbeddingiMTEB Leaderboard (Massive Text Embedding Benchmark) to ranking modeli embeddingowych testowanych na standardowych benchmarkach obejmujących różne zadania: retrieval, klasteryzacja, similarity i klasyfikacja. Pomaga wybrać najlepszy model do konkretnego zastosowania SEO – nie każdy model jest najlepszy we wszystkim. Krytycznie ważne jest sprawdzanie wyników pod kątem polskiego języka, ponieważ wiele modeli radzi sobie świetnie z angielskim, ale słabo z polszczyzną.
Rekomendowane są Jina (silny multilanguage), Gemini text-embedding-004 (768 wymiarów, dobre wsparcie polskiego) i OpenAI (1536/3072 wymiarów). MTEB jest dostępny na Hugging Face i regularnie aktualizowany o nowe modele. W praktyce zanim zaindeksujesz tysiące stron, przetestuj 2-3 modele na próbce 50 tytułów w polskim języku i porównaj jakość klasteryzacji – różnice bywają znaczące.