Tema Janna La licenza non è convalidata, vai alla pagina delle opzioni del tema per convalidare la licenza, è necessaria una singola licenza per ogni nome di dominio.

Affrontare i giganti dell'intelligenza artificiale: confronto tra ChatGPT o1 e DeepSeek R1

Il laboratorio di intelligenza artificiale cinese DeepSeek ha recentemente lanciato il suo modello di punta R1, che secondo l'azienda è alla pari o addirittura migliore del ChatGPT o1 di OpenAI. DeepSeek ha già raggiunto la vetta dell'App Store di Apple, sorpassando ChatGPT. Il mercato tecnologico statunitense è stato influenzato dal modello conveniente di DeepSeek. Quindi, per valutare entrambi i modelli di intelligenza artificiale e vedere quale sia più efficace, abbiamo confrontato ChatGPT o1 e DeepSeek R1 in una serie di test di ragionamento complessi riportati di seguito.

ChatGPT o1 vs DeepSeek R1: messa a fuoco sbagliata

I modelli linguistici di grandi dimensioni sono spesso descritti come “Pappagalli casuali"A causa della sua mancanza di vera generalizzazione e del suo forte affidamento sulla corrispondenza di modelli statistici e sulla memorizzazione per predire la parola o il simbolo successivo. Tuttavia, con i recenti sviluppi nel campo dell'intelligenza artificiale (come OpenAI o3), questa narrazione cambia piuttosto rapidamente poiché i modelli sofisticati dimostrano un certo grado di generalizzazione e mostrano comportamenti emergenti che non erano stati programmati in essi.

Esistono molti enigmi, indovinelli ed esperimenti mentali comuni su cui vengono addestrati i modelli di intelligenza artificiale. Pertanto, quando viene loro chiesto di risolvere uno dei puzzle più comuni disponibili nei loro dati di addestramento, i modelli linguistici di grandi dimensioni traggono informazioni in gran parte dal loro set di addestramento.

Tuttavia, quando si modifica leggermente il puzzle per trarre in inganno il modello, la maggior parte I grandi modelli linguistici falliscono Gli schemi appresi vengono ripetuti. Qui è possibile valutare se il modello di intelligenza artificiale sta effettivamente applicando un ragionamento reale o se si tratta solo di semplice memorizzazione.

Poni un puzzle complesso su DeepSeek R1

Nella domanda precedente è chiaramente affermato che il chirurgo è il padre del ragazzo, ma sia ChatGPT o1 che DeepSeek R1 danno la risposta sbagliata. Entrambi i modelli affermano che il chirurgo è la madre del ragazzo, mettendo così in discussione il presupposto secondo cui i chirurghi siano uomini. La domanda è concepita per cercare un'altra possibilità e indurre il giocatore a una risposta sbagliata. A proposito, è interessante che Gemelli 2.0 Flash (Non il modello pensante) risponde correttamente.

vincitore: Non c'è

ChatGPT o1 vs DeepSeek R1: Matematica vs. Ragionamento logico

Google ha aggiunto alcune ottime domande per testare i propri modelli di ragionamento logico nella pagina Cookbook. ricettario. Ho preso una delle domande sul pensiero multimodale (+ matematica) e l'ho trasformata in testo perché DeepSeek R1 non supporta ancora l'input multimediale..

Nei miei test, sia ChatGPT o1 che DeepSeek R1 hanno risolto correttamente il problema. Entrambe le modelle hanno lanciato la palla '9' trasformandola in '6' e hanno sommato 6 + 11 + 13 per ottenere il risultato di 30. Ottimo lavoro da parte di entrambe le modelle!

DeepSeek R1 ha posto un problema di matematica che richiedeva pensiero logico.

vincitore: ChatGPT o1 e DeepSeek R1

ChatGPT o1 vs DeepSeek R1: una domanda dall'esame finale dell'umanità

Il Center for AI Integrity (CAIS) ha annunciato di recente un parametro di riferimento denominato “Humanity’s Last Examination” (HLE) per monitorare i rapidi progressi dell’intelligenza artificiale in una varietà di materie accademiche. Questo standard contiene domande provenienti da importanti scienziati, professori e ricercatori provenienti da tutto il mondo. Il CAIS ha pubblicato alcune di queste domande come esempi sul suo sito web. Ho scelto una domanda sulla mitologia greca e l'ho testata su ChatGPT o1 e DeepSeek R1.

Domanda su DeepSeek R1 sulla mitologia greca

Il modello ChatGPT o1 ha impiegato circa 30 secondi per riflettere e ha risposto che il dio Hermes era il bisnonno materno di Giasone, il che è corretto. Sebbene DeepSeek R1 abbia impiegato circa 28 secondi per ricostruire la discendenza, ha risposto con "Aeolus", il che è sbagliato. Sebbene questo test valuti in larga parte la capacità di memorizzazione, resta comunque un modo fondamentale per verificare se i modelli di intelligenza artificiale comprendono la logica e le relazioni.

vincitore: ChatGPT o1

ChatGPT o1 contro DeepSeek R1: il dilemma del carrello

Probabilmente avrai sentito parlare del famoso problema del carrello, ma la domanda è stata leggermente modificata per confondere il modello, come parte della valutazione dell'attenzione fuorviante (GitHub). Vediamo ora se questi modelli riescono a fornire la risposta giusta.

Per prima cosa, ChatGPT o1 ha pensato per 29 secondi e ha capito il trucco: Cinque persone sono già morte. Su una pista e una persona viva sull'altra. ChatGPT o1 non ha perso tempo e ha detto che la leva non doveva essere girata perché non si poteva fare del male a chi era già morto.

chiedendo a deepseek r1 del problema del carrello

D'altra parte, DeepSeek R1 ha ignorato la parte "persone morte" perché La sua eccessiva dipendenza dai modelli di allenamento E si lanciò in una discussione etica. Ha affermato che non esiste una risposta universalmente corretta. ChatGPT o1 ha chiaramente colto il punto in questo round.

vincitore: ChatGPT o1

ChatGPT o1 vs DeepSeek R1: ragionamento matematico

In un'altra domanda sul ragionamento matematico, ho chiesto a ChatGPT o1 e DeepSeek R1 di misurare esattamente 4 litri utilizzando due secchi, uno da 6 litri e uno da 12 litri. ChatGPT o1 ha pensato per 47 minuto e XNUMX secondi e ha risposto che è matematicamente impossibile farlo, che è la risposta corretta. In genere, i modelli di intelligenza artificiale cercano di trovare una risposta quando viene loro presentato un problema.

chiedendo a deepseek r1 una domanda di attenzione fuorviante

Ma ChatGPT o1 ha fatto un ulteriore passo avanti e ha calcolato il massimo comune divisore (MCD) e ha affermato che 4 non è un multiplo di 6. Quindi non possiamo usare la regola "riempi, svuota, versa" per misurare esattamente 4 litri.

Sorprendentemente, DeepSeek R1 ha pensato per soli 47 secondi, ha seguito lo stesso approccio e ha risposto: "È matematicamente impossibile con queste specifiche dimensioni di bucket."

vincitore: ChatGPT o1 e DeepSeek R1

ChatGPT o1 vs DeepSeek R1: censura politica e pregiudizio

Dato che DeepSeek è un laboratorio cinese di intelligenza artificiale, mi aspettavo che si censurasse su molti argomenti controversi legati alla Repubblica Popolare Cinese. Tuttavia, DeepSeek R1 va molto oltre e non ti consente nemmeno di attivare i prompt se menzioni Xi Jinping, il presidente della Cina, nel prompt. Semplicemente non funziona.

deepseek r1 non può scrivere di xi jinping

Quindi ho provato a aggirare il problema chiedendo a DeepSeek R1: "Chi è il presidente della Cina?" Nel momento in cui inizia a pensare, il modello si ferma all'improvviso e dice: "Mi dispiace, non so ancora come gestire questo tipo di domande. Parleremo invece di matematica, programmazione e logica!"

Allo stesso modo, non è possibile eseguire richieste che menzionano Jack Ma, gli uiguri, la dittatura, il governo o persino la democrazia, il che crea confusione.

chatgpt o1 battute su donald trump

D'altro canto, ho chiesto a ChatGPT o1 di scrivere una battuta su Donald Trump, l'attuale presidente degli Stati Uniti, e ha risposto senza problemi. Ho perfino chiesto a ChatGPT o1 di rendere la battuta un po' più cattiva e ha fatto un ottimo lavoro. ChatGPT o1 ha risposto: “I capelli di Donald Trump hanno sopportato più pettinature della sua carriera, ed entrambi continuano a deteriorarsi."

In parole povere, se stai cercando un modello di intelligenza artificiale che non sia pesantemente censurato su argomenti politici, dovresti scegliere ChatGPT o1.

vincitore: ChatGPT o1

Confronto tra ChatGPT o1 e DeepSeek R1: quale dovresti usare?

Fatta eccezione per gli argomenti politici, DeepSeek R1 è un'alternativa gratuita ed efficace a ChatGPT, Una delle migliori alternative a ChatGPT, e lui Molto vicino al livello di prestazioni del modello o1.. Non posso affermare con certezza che DeepSeek R1 superi ChatGPT o1, poiché il modello OpenAI offre costantemente prestazioni migliori di DeepSeek, come dimostrato da questi test.

Tuttavia, c'è Il fascino di DeepSeek R1 è il suo basso costo.. Puoi utilizzare DeepSeek R1 gratuitamente, mentre OpenAI addebita 20 $ per accedere a ChatGPT o1.

E non dimentichiamo che per gli sviluppatori, L'API DeepSeek R1 è 27 volte più economica di ChatGPT o1, il che rappresenta un enorme cambiamento nel modello di prezzo. Per quanto riguarda la comunità di ricerca, il team di DeepSeek ha rilasciato i pesi e reso open source il metodo di apprendimento per rinforzo (RL) su come ottenere il calcolo del tempo di test, simile al nuovo modello di OpenAI con modelli o1.

Inoltre, la nuova architettura del modello sviluppata da DeepSeek per addestrare il modello R1 su GPU più vecchie per soli 5.8 milioni di dollari aiuterà altri laboratori di intelligenza artificiale a creare modelli avanzati a costi molto più bassi. Si prevede che altre aziende di intelligenza artificiale replichino il lavoro di DeepSeek AI nei prossimi mesi.

Nel complesso, DeepSeek R1 è più di un semplice modello di intelligenza artificiale: offre un nuovo modo per addestrare modelli di intelligenza artificiale avanzati con un budget limitato, senza la necessità di costosi cluster hardware.

Vai al pulsante in alto