Meta veröffentlicht Llama 3.2: Ein Open-Source-KI-Modell mit multimodalen Fähigkeiten

Montag, 30 Dezember 2024 14:36

Meta hat sein neuestes großes Sprachmodell Llama 3.2 vorgestellt, das als Open-Source-Modell mit multimodalen Fähigkeiten für das Verstehen von Bildern und Texten verfügbar ist. Das KI-Modell soll ein Konkurrent zu OpenAIs GPT-4o Mini sein und bietet eine Reihe von Funktionen, darunter eine Kontextlänge von 128.000 Token und zwei verschiedene Modellgrößen mit 11 Milliarden und 90 Milliarden Parametern.

illustration Llama 3.2 © copyright Markus Winkler - Pexels

Meta, das Mutterunternehmen von Facebook, Instagram und WhatsApp, hat auf der Meta Connect-Veranstaltung sein neuestes großes Sprachmodell (LLM), Llama 3.2, veröffentlicht. Das KI-Modell ist ein Konkurrent zu OpenAIs GPT-4o Mini, das im Juli veröffentlicht wurde.

Mark Zuckerberg, CEO von Meta, erklärte, dass Llama 3.2 seit 2023 erhebliche Fortschritte gemacht hat und in Bezug auf die Fähigkeit, Bilder zu erkennen und visuelles Material zu verstehen, mit GPT-4o Mini vergleichbar sei. Er betonte auch, dass Llama 3.2 anderen Open-Source-KI-Modellen wie Gemmas von Google und Phi 3.5-mini von Microsoft in verschiedenen Bereichen überlegen sei, darunter das Befolgen von Anweisungen, das Zusammenfassen, die Verwendung von Werkzeugen und das Umformulieren von Befehlen.

Llama 3.2: Metas erster Schritt in die multimodale KI

„Llama entwickelt sich schnell weiter und eröffnet viele Möglichkeiten“, sagte Zuckerberg. Als multimodales Modell, das Bilder und Text verstehen kann, eröffnet Llama 3.2 neue Möglichkeiten für verschiedene Anwendungen, die visuelles Verständnis erfordern. „Llama 3.2 ist unser erstes Open-Source-Multimodal-Modell“, sagte Zuckerberg in seiner Eröffnungsrede auf der Meta Connect. Mit der Einführung von Llama 3.2 scheint Meta im Rennen um die globale KI aufzuholen. Denn andere KI-Entwickler wie OpenAI und Google haben bereits im letzten Jahr multimodale KI-Modelle veröffentlicht.

Wichtige Funktionen von Llama 3.2

  • Open Source: Wie seine Vorgänger ist Llama 3.2 Open Source, sodass Entwickler es frei und kostenlos nutzen können.
  • Modellgröße: Llama 3.2 ist in zwei Versionen erhältlich: ein kleines Modell mit 11 Milliarden Parametern und ein mittleres Modell mit 90 Milliarden Parametern. Modelle mit mehr Parametern sind in der Regel genauer und können komplexere Aufgaben bewältigen.
  • Kontextlänge: Llama 3.2 hat eine Kontextlänge von 128.000 Token, sodass Benutzer einen beträchtlichen Text (entsprechend Hunderten von Seiten eines Lehrbuchs) eingeben können.
  • Bildverständnis: Die Llama 3.2-Modelle mit 11 Milliarden und 90 Milliarden Parametern können Diagramme und Grafiken verstehen, Bilder beschriften und Objekte aus natürlichen Sprachbeschreibungen identifizieren. So kann der Benutzer beispielsweise fragen, in welchem Monat ein Unternehmen den besten Umsatz erzielt hat, und das Modell gibt die Antwort anhand der verfügbaren Grafik. Modelle mit größeren Parametern können auch Details aus Bildern extrahieren, um Text zu erstellen.

Das Llama 3.2-Modell steht zum Download auf llama.com, Hugging Face und den Plattformen von Meta-Partnern zur Verfügung.

Ähnliche Artikel

Google Meet mit KI: Effizientere und Barrierefreie Online-Meetings
Chatbots: Die digitale Revolution im Kundenservice und darüber hinaus
Künstliche Intelligenz verbessert die Vorhersage von Erdbeben
AWS Trainium3: KI-Revolution in der Cloud
LinkedIn räumt ein: Benutzerdaten für KI-Training verwendet
Bing Generativ: Microsofts KI-gestützte Suchmaschine
KI-Revolution: Mehr Effizienz durch Automatisierung
Windows 11: Recall-Funktion sorgt für Datenschutz-Bedenken
Google verbessert sein KI-Sprachmodell Gemini 1.5 Flash: Schneller, günstiger, effizienter
ChatGPT: Revolution in der KI-Welt oder nur ein Hype?
TikTok Lanciert KI-gestützte Werbeanzeigen mit 'Smart+'
Intel verpasste die Chance, Nvidia zu kaufen: Ein Fehler mit Folgen?