Meta stellt Llama 3.2 vor: Ein multimodales KI-Modell, das Bilder und Texte versteht

Mittwoch, 25 Juni 2025 15:35

Meta hat auf der Meta Connect-Veranstaltung sein neuestes großes Sprachmodell (LLM) Llama 3.2 vorgestellt. Dieses KI-Modell kann Bilder verstehen und ist mit OpenAIs GPT-4o Mini vergleichbar. Erfahren Sie mehr über die Funktionen und Vorteile von Llama 3.2.

Meta, die Muttergesellschaft von Facebook, Instagram und WhatsApp, hat auf der Meta Connect-Veranstaltung sein neuestes großes Sprachmodell (LLM) Llama 3.2 vorgestellt. Dieses KI-Modell ist ein Konkurrent zu OpenAIs GPT-4o Mini, das im Juli veröffentlicht wurde.

Mark Zuckerberg, CEO von Meta, erklärte, dass Llama 3.2 seit 2023 erhebliche Fortschritte gemacht hat und in der Lage ist, Bilder zu erkennen und visuelle Inhalte zu verstehen, was mit GPT-4o Mini vergleichbar ist. Er betonte auch, dass Llama 3.2 andere Open-Source-KI-Modelle wie Gemmas von Google und Phi 3.5-mini von Microsoft in verschiedenen Aspekten übertrifft, darunter die Befolgung von Anweisungen, die Zusammenfassung, die Verwendung von Tools und die Neuformulierung von Befehlen.

"Llama entwickelt sich schnell weiter und eröffnet viele Möglichkeiten", sagte Zuckerberg.

Lesen Sie auch:KI-Revolution: Chancen und Herausforderungen für die deutsche Wirtschaft

Llama 3.2: Metas erstes multimodales KI-Modell

Als multimodales Modell, das Bilder und Texte verstehen kann, eröffnet Llama 3.2 neue Möglichkeiten für verschiedene Anwendungen, die visuelles Verständnis erfordern. "Llama 3.2 ist unser erstes Open-Source-multimodales Modell", sagte Zuckerberg in seiner Eröffnungsrede auf der Meta Connect.

Mit der Einführung von Llama 3.2 scheint Meta im Rennen um die globale KI-Vorherrschaft aufzuholen. Denn andere KI-Entwickler wie OpenAI und Google haben bereits im letzten Jahr multimodale KI-Modelle veröffentlicht.

Herausragende Funktionen von Llama 3.2:

Open Source: Wie seine Vorgänger ist Llama 3.2 Open Source, sodass Entwickler es frei und kostenlos nutzen können.

Modellgröße: Llama 3.2 ist in zwei Versionen verfügbar: ein kleines Modell mit 11 Milliarden Parametern und ein mittleres Modell mit 90 Milliarden Parametern. Modelle mit mehr Parametern sind in der Regel genauer und können komplexere Aufgaben bewältigen.

Kontextlänge: Llama 3.2 hat eine Kontextlänge von 128.000 Token, sodass Benutzer eine beträchtliche Menge an Text (entspricht Hunderten von Seiten eines Lehrbuchs) eingeben können.

Bildverständnis: Llama 3.2-Modelle mit 11B und 90B Parametern können Diagramme und Grafiken verstehen, Bilder beschriften und Objekte aus Beschreibungen in natürlicher Sprache identifizieren. So kann der Benutzer beispielsweise fragen, in welchem Monat das Unternehmen den höchsten Umsatz erzielt hat, und das Modell wird basierend auf der verfügbaren Grafik eine Antwort liefern. Größere Modelle können auch Details aus Bildern extrahieren, um Text zu erstellen.

Zugänglichkeit: Das Llama 3.2-Modell steht zum Download auf llama.com, Hugging Face und den Partnerplattformen von Meta zur Verfügung.