Apple ha annunciato un nuovo modello linguistico multimodale (LLM) open source, chiamato Ferret. Questo modello linguistico può capire e produrre testo, immagini, suoni e video, come altri modelli simili, come Gemini, ChatGPT o Google Bard.
Ferret è stato sviluppato da un team di ricercatori di Apple e della Columbia University. È stato addestrato su un dataset di testo e immagini di grandi dimensioni, e può essere utilizzato per una varietà di scopi, tra cui:
Descrivere immagini in modo dettagliato e accurato. Ferret è in grado di identificare e descrivere le piccole parti di un’immagine, facendo meno errori rispetto al modello linguistico GPT-4 di OpenAI.
Tradurre lingue. Ferret può essere utilizzato per tradurre testi da una lingua all’altra, anche se le lingue sono molto diverse.
Creare contenuti creativi. Ferret può essere utilizzato per scrivere storie, creare musica o generare immagini.
Ferret è un importante passo avanti nello sviluppo dell’intelligenza artificiale multimodale. È ancora in fase di sviluppo, ma ha il potenziale per essere utilizzato in una varietà di applicazioni.
L’articolo Apple Ferret: l’intelligenza artificiale che può descrivere immagini con precisione proviene da CorriereNerd.it.
Aggiungi un commento