Apple hat Forschungsdaten zu einem neuen, offenbar deutlich aufgerüsteten großen Sprachmodell veröffentlicht. Es soll mit Bildern und Texten als Input umgehen und eben solche auch ausgeben können. Ob es dieses Modell sein wird, mit dem Apple demnächst auf den Markt kommen wird, oder dies noch Jahre dauert, ist nicht klar.

Apple möchte es bei KI nun richtig wissen, das wurde zuletzt offensichtlich. Nach einer ersten Demo einer KI-basierten Bildbearbeitung wurde nun ein Paper vom iPhone-Konzern veröffentlicht, das ein neues, großes Sprachmodell beschreibt.

In seiner größten Version soll es 30 Milliarden Parameter umfassen. Das MM1 genannte Modell ist multi-modal, kann also gemischte Datentypen verarbeiten. Nutzer können somit Bilder, Texte oder auch Bilder mit Texten eingeben und darauf basierende Anfragen formulieren.

MM1 soll komplexe Anfragen bearbeiten können

Das Modell sei laut Apple in der Lage, auch komplexere Anfragen, etwa mehrstufige Aufgaben, zu lösen und als Ergebnis Text oder Bildmaterial auszugeben. Es soll etwa möglich sein, nach Details aus Bildern zu fragen oder Bilder interpretieren zu lassen.

Genau das ist es auch, was aktuell von großen Sprachmodellen verlangt wird. Es ist allerdings unklar, wie weit Apple tatsächlich schon ist. Dass man über ein solches Modell in einem Forschungspapier schreibt bedeutet nicht, dass man bereits so weit ist, es auch in Marktreife einzusetzen. Daher ist nicht klar, was diese Veröffentlichung vor dem Hintergrund bedeutet, dass offenbar zunächst die Google-KI auf das iPhone kommen soll. Dem Vernehmen nach möchte Apple bereits in iOS 18 umfassende KI-Features anbieten. Das geht womöglich nur mit fremder Hilfe.

