Giornal-AI

Microsoft Phi-3-vision: Intelligenza Artificiale Multimodale per la Comprensione di Immagini e Testo

Un passo avanti nella AI: Phi-3-vision integra l’elaborazione di immagini e testo

Durante il Build 2024, Microsoft ha svelato un’importante novità nel panorama dell’intelligenza artificiale: Phi-3-vision. Questo nuovo modello linguistico si distingue dai predecessori per la sua natura multimodale, capace di elaborare e comprendere sia testo che immagini.

Un modello versatile per diverse sfide

Phi-3-vision apre nuove possibilità per l’interazione uomo-macchina. Ad esempio, può:

Rispondere a domande su grafici e diagrammi, fornendo informazioni e analisi approfondite.
Estrarre informazioni da immagini e rispondere a domande aperte su di esse.
Supportare attività di ragionamento visivo generale, come l’identificazione di oggetti, la classificazione di immagini e la descrizione di scene.

Potenza e dimensioni ottimizzate

Con i suoi 4,2 miliardi di parametri, Phi-3-vision si posiziona a metà strada tra i modelli Phi-3 precedenti, risultando più grande di Phi-3 Mini (3,8 miliardi di parametri) ma più piccolo di Phi-3 Small (7 miliardi di parametri) e Phi-3 Medium (14 miliardi di parametri). Questa dimensione equilibrata permette di bilanciare potenza e prestazioni, rendendolo adatto a un’ampia gamma di applicazioni.

Disponibilità e futuro

Al momento, Phi-3-vision è disponibile in versione preliminare e la data di rilascio ufficiale non è ancora stata annunciata. Tuttavia, gli altri modelli della famiglia Phi-3 (Mini, Small e Medium) sono già accessibili tramite il servizio Azure AI di Microsoft.

Altre novità AI da Microsoft

Oltre a Phi-3-vision, Microsoft ha presentato altre interessanti novità nel campo dell’intelligenza artificiale:

Azure AI Studio: Una piattaforma di sviluppo per la creazione responsabile di intelligenza artificiale generativa, rivolta sia a sviluppatori esperti che a utenti meno avvezzi al codice.
ChatGPT-4o: L’ultimo modello di linguaggio di OpenAI, ora disponibile su Azure AI Studio e come API, per generare testi realistici e coerenti.
Funzione di copia e incolla potenziata dall’AI su Windows 11: Per un’esperienza di copia e incolla più efficiente e intelligente.
Traduzione in tempo reale dei dialoghi nei video su Microsoft Edge: Per abbattere le barriere linguistiche durante la fruizione di contenuti video online.

Conclusione

Le novità presentate da Microsoft al Build 2024 dimostrano l’impegno dell’azienda nel far progredire il campo dell’intelligenza artificiale, con un focus sulla multimodalità, sulla creazione responsabile di AI e sull’integrazione di funzionalità AI intuitive nelle sue soluzioni software. Phi-3-vision, in particolare, rappresenta un passo avanti significativo nella comprensione e nell’elaborazione di informazioni complesse da parte delle macchine, con il potenziale di rivoluzionare il modo in cui interagiamo con i computer e con il mondo che ci circonda.

L’articolo Microsoft Phi-3-vision: Intelligenza Artificiale Multimodale per la Comprensione di Immagini e Testo proviene da CorriereNerd.it.

Aggiungi un commento