Tema Janna La licenza non è convalidata, vai alla pagina delle opzioni del tema per convalidare la licenza, è necessaria una singola licenza per ogni nome di dominio.

5 modi in cui ChatGPT o3-mini supera altri modelli di intelligenza artificiale

Infine, OpenAI ha lanciato il suo modello pionieristico. o3-mini In risposta al modello di pensiero DeepSeek R1 della Cina di questo fine settimana. La serie di modelli o3 è stata annunciata a dicembre dell'anno scorso. OpenAI non ha perso tempo e ha lanciato o3-mini e o3-mini-high per mantenere la sua leadership nella corsa all'intelligenza artificiale. Ci siamo quindi chiesti in cosa eccelle ChatGPT o3-mini rispetto ad altri modelli di intelligenza artificiale e lo abbiamo messo alla prova. Abbiamo messo alla prova le sue capacità di programmazione e discusso in dettaglio vari criteri. Partendo da queste premesse, approfondiamo l'argomento.

1. Prestazioni software eccezionali

OpenAI afferma che il modello o3-mini offre prestazioni software eccezionali, mantenendo costi contenuti e alta velocità. Prima dell'o3-mini, è stato lanciato il modello Claude 3.5 Sonnet di Anthropic. Claude 3.5 Sonetto È la scelta migliore per programmare le query. Ma questa situazione cambia con il rilascio di o3-mini, in particolare con il modello o3-mini-high disponibile per gli utenti di ChatGPT Plus e Pro.

Crea un gioco di serpente auto-giocante usando o3 mini

Ho testato il modello. o3-mini-alto Gli ho chiesto di creare un gioco di serpenti in Python in cui diversi serpenti che si muovono da soli competono tra loro. Il modello ha impiegato 10 minuto e XNUMX secondi per generare l'intero codice Python in una sola volta.

Quando ho eseguito il codice, tutto ha funzionato senza problemi e senza intoppi. È stato divertente osservare i serpenti muoversi da soli con tanta precisione, proprio come fanno i giocatori umani!

Gioco di serpente auto-giocante sviluppato da o3 mini

Il modello o3-mini-high ha ottenuto un punteggio di 2,130 sulla piattaforma di programmazione competitiva Codeforces, posizionandosi tra i primi 2500 programmatori al mondo. Inoltre, nel benchmark verificato SWE-bench che valuta la capacità di risolvere problemi software del mondo reale, o3-mini-high ha raggiunto una precisione del 49.3%, che è Più alto del modello O1 più grande (48.9%).

Pertanto, penso che il modello o3-mini-high funzionerà meglio in Aiuto alla programmazione AI Finché non verrà rilasciato il modello O3 completo, che secondo Sam Altman uscirà tra qualche settimana.

2. Poni problemi matematici avanzati.

Oltre alla programmazione, anche la matematica è un ambito in cui il modello o3-mini supera altri modelli di intelligenza artificiale. Nell'American Math Examination (AIME) del 2024, che comprende domande su teoria dei numeri, probabilità, algebra, geometria, ecc., l'o3-mini-high ha ottenuto uno sbalorditivo tasso di successo dell'87.3%, superando l'intero o1.

benchmark o3 mini aime 2024

Nel rigoroso test FrontierMath, che prevede complessi problemi matematici creati da matematici di spicco, vincitori della medaglia Fields e professori provenienti da tutto il mondo, il modello o3-mini-high ha ottenuto un punteggio del 20% dopo otto tentativi. Anche in un solo tentativo ha ottenuto un punteggio del 9.2%, il che non è insignificante.

Per contestualizzare la cosa, il famoso matematico Terence Tao ha descritto i problemi del test FrontierMath come "estremamente difficili". La risoluzione può richiedere ore o giorni, anche per i matematici esperti. Al contrario, altre alternative a ChatGPT sono riuscite a raggiungere solo il 2% in questo test.

3. Il tuo esperto scientifico di livello PhD

Il modello o3-mini-high eccelle anche nel rispondere a complesse domande scientifiche a livello di dottorato, superando di gran lunga altri modelli di intelligenza artificiale. Il GPQA Diamond è uno standard avanzato che valuta le capacità dei modelli di intelligenza artificiale in campi scientifici specializzati e comprende domande avanzate nei campi della biologia, della fisica e della chimica.

benchmark o3 mini gpqa diamond

Nel benchmark GPQA Diamond, l'o3-mini-high ha ottenuto un notevole punteggio del 79.7%, superando il modello o1 più grande (78.0%). A titolo di confronto, l'ultimo modello di ragionamento logico di Google, Gemini 2.0 Flash Thinking (Exp-01-21), ha ottenuto un punteggio del 73.3%. Anche il nuovo modello Claude 3.5 Sonnet ha ottenuto solo il 65% nello standard GPQA Diamond.

Ciò dimostra che il modello o3-mini di OpenAI, più piccolo, se dotato di più tempo e potenza di calcolo per pensare, può superare altri modelli di intelligenza artificiale nel rispondere a domande scientifiche specialistiche.

4. Conoscenza generale

Nelle aree di conoscenza generale, non ci si aspetta che l'o3-mini superi in prestazioni i modelli più grandi, a causa delle sue dimensioni ridotte e della specializzazione in programmazione, matematica e scienze. Tuttavia, nonostante le dimensioni ridotte, si avvicina molto ai modelli più grandi. Nel benchmark MMLU, che misura le prestazioni dei modelli di intelligenza artificiale su un'ampia gamma di argomenti, o3-mini-high ha ottenuto un punteggio dell'86.9%, mentre il modello GPT-4o di OpenAI ha ottenuto un punteggio dell'88.7%.

benchmark o3 mini MMLU

Tuttavia, si prevede che il futuro modello O3 completo supererà facilmente tutti gli attuali modelli di intelligenza artificiale nei domini della conoscenza generale. Questa previsione si basa sulle prestazioni del modello o1 completo, che ha già raggiunto il 92.3% nel benchmark MMLU. Ora non ci resta che attendere il modello O3 completo, che potrebbe soddisfare pienamente lo standard.

Utilizzare la ricerca web con o3-mini

Il modello o3-mini è noto solo grazie ai dati disponibili fino a ottobre 2023, che al momento sono relativamente vecchi. Tuttavia, OpenAI ha aggiunto il supporto alla ricerca web al modello o3-mini, consentendo al modello di ragionamento di estrarre le informazioni più recenti dal web ed eseguire operazioni di ragionamento avanzate. Anche DeepSeek R1 fa questo, ma nessun altro modello di ragionamento consente di accedere al web per un ragionamento più logico. Questo aggiornamento migliora notevolmente la capacità dell'o3-mini di gestire informazioni in continuo cambiamento.

Ecco alcune delle funzionalità avanzate del modello o3-mini. Mentre Gli utenti di ChatGPT gratuiti possono accedere a o3-miniLo “Sforzo di pensiero” è impostato su “Medio”, il che utilizza meno potenza di calcolo. Ciò significa che i risultati potrebbero essere meno accurati e dettagliati rispetto alla versione a pagamento.

Pertanto, consiglio di abbonarsi a ChatGPT Plus, che costa 20 $ al mese, per sbloccare il potente modello "o3-mini-high". Per programmatori professionisti, ricercatori e studenti STEM, il modello o3-mini-high può essere molto utile, poiché fornisce capacità di ragionamento avanzate e una maggiore accuratezza nei risultati.

Vai al pulsante in alto