Frettchen voraus: Apple-KI "Ferret-UI" will bei App-Bedienung helfen

Um Apps effektiv einzusetzen, müssen Nutzer erst die Bedienoberfläche meistern. Ein neues Sprachmodell von Apple soll das erübrigen.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Apps auf dem Homescreen eines iPhones

(Bild: Sebastian Trepesch)

Lesezeit: 2 Min.

Multimodale Sprachmodelle erkennen zwar Bildinhalte, bekommen aber schnell Probleme beim Verständnis spezifischer Elemente von App-Bedienoberflächen. Das soll ein von Apple-Mitarbeitern entwickeltes LLM besser machen: Das Ferret-UI genannte Sprachmodell ist speziell darauf ausgelegt, die Bedienoberfläche von mobilen Apps zu verstehen, heißt es in einem jüngst veröffentlichten Paper der Forscher.

Ferret-UI ist demnach darauf trainiert, Basiselemente wie Icons, Beschreibungen und Listen zu erfassen und daraus dann etwa die dahinter liegenden Funktionen abzuleiten. Zusätzlich hat Apple das Sprachmodell darauf ausgelegt, Fragen zu der App respektive Bedienoberfläche zu beantworten. Möchte der Nutzer eine bestimmte Aktion ausführen, soll Ferret-UI das entsprechende Bedienelement in der App hervorheben.

Plaudern mit einer App: Ferret-UI soll Bedienlemente erfassen und dem Nutzer bei der Steuerung unterstützen.

(Bild: Apple)

Das erleichtere Nutzern, das gewünschte Ziel zu erreichen, schreiben die Entwickler. Zugleich ist ein solches Sprachmodell auch nützlich in Hinblick auf weitere Einsatzgebiete, etwa für Barrierefreiheit oder das Testen von App-Bedienoberflächen während der Entwicklungsphase. Für bestimmte fortgeschrittene Funktionen greift Ferret-UI dann auf GPT-4 zurück, um etwa ausführliche Beschreibungen einer App zu liefern, wie die Wissenschaftler anmerken.

Dem Paper zufolge ist Ferret-UI durch das spezielle Training auf Elemente von App-Bedienoberflächen anderen Sprachmodellen in dieser Hinsicht überlegen und übertreffe in bestimmten Anwendungsfällen auch die Bilderkennung von GPT-4, wie die Apple-Mitarbeiter betonen. GPT-4V liefere zusätzliche Informationen über eine Bedienoberfläche, die aber mitunter nicht relevant sind, um die Frage des Nutzers zu beantworten. Bestimmte Elemente des Bildschirminhaltes könne Ferret-UI nicht erkennen, weil es darauf nicht trainiert ist, so die Forscher. Dazu gehören etwa Informationen in der Statusleiste oder auch Farbe und Design einer App.

Apple hat bereits angedeutet, dass die Entwicklerkonferenz WWDC 2024 ganz im Zeichen von KI steht. Lange hat sich der Konzern dagegen gesträubt, den Begriff "Artificial Intelligence" überhaupt zu verwenden – das hat sich jüngst aber geändert, ganz offensichtlich kommt auch Apple an Schlagwort KI nicht vorbei. In den vergangenen Wochen veröffentlichten Apple-Mitarbeiter mehrere Paper rund um Sprachmodelle. Ob und in welcher Form deren Fähigkeiten in iOS 18 einfließen, bleibt vorerst offen. Das Unternehmen scheint für KI-Funktionen auch an Partnerschaften etwa mit Google interessiert.

(lbe)