Blog y tendencias

Chatgpt vs Deepseek

Desde hace 2 semanas que no se habla de otra cosa en el mundo de las IA que de DeepSeek y como a poco entrar en competencia, es notoria la diferencia de rendimiento en comparación con otras LLM, así que es hora de enfrentar al actual líder con el retador en un cara a cara Chatgpt vs Deepseek . 

Estos últimos años he dedicado tiempo de estudio, prueba y error, para integrarlas y trabajar con ellas, puedo ofrecerles mi experiencia y los resultados, después de algunos testing.

Mi primer desafío con la IA

Antes de contarles el resultado de las pruebas que hice entre GPT-4o vs Deepseek, debo darles el contexto de mi primer proyecto en IA, que consistía en automatizar un proceso predictivo, que permitía emitir alertas tempranas a sus clientes y así evitar mantenciones carísimas.

El problema

El cliente contaba con un equipo experto, que analizaba el modelo de forma manual. Sin embargo, poco a poco, el equipo se empezó a reducir (por rotacion) perdiendo parte del conocimiento, muy difícil de reemplazar en el corto plazo, la complejidad de su modelo incorporaba cada vez más variables, y los mismos análisis anteriores eran parte de los insumos para nuevos análisis…  al poco tiempo, el predictor “gano peso” y se hizo tan complejo y difícil de manejar que logar un buen resultado de forma artesanal, era una tarea titánica.

El desafío

Cuando vimos este escenario, una IA se ajustaba al modelo de forma evidente, así que empezamos a trabajar con la API de openAI y diseñamos una solución web, que permitía acceso al predictor para un análisis en linea.

La ejecución

Hasta ahí todo bien, la integración de la API no fue compleja, creamos un asistente y empezamos la fase del entrenamiento. Creamos documentación robusta, bien explicada y rotulada, antes de escribir el contenido le dábamos contexto de qué encontraría ahí, era importante evitar las alucinaciones. Por otro lado, ya conocíamos de promp y creamos uno muy específico, anticipando y corrigiendo cada vacío para así establecer una buena comunicación con el asistente.

Al poco tiempo comenzamos a recibir respuestas, el flujo estaba dando resultados.

Medición de Calidad

Al recibir datos, ya era necesario que iniciáramos el QA. Veíamos que nos entregaba mucha data en la salida y era hora de ver que tan certera era esa información. La revisión fue un desastre, no había consistencia en la respuesta, los mismos datos y calibraciones daban resultados diferentes cada vez, claramente algo andaba mal en la receta, todos hablaban de las maravillas de la IA y pocos que trabajaban con ella contaban las dificultades reales, por lo tanto, retrocedimos en nuestros pasos y recalibramos el modelo.

De vuelta al origen a documentarse

Como siempre se sumergí en Github, videos, grupos de IA y cuanta cosa encontré, aprendí algunas cosas adicionales de la IA:

La IA y los Roles

Roles bien definidos, con un objetivo y un contexto. Debes asegurarte de decirle quien es y que quieres que responda, ya sea un calculo una actividad o una tarea específica, debes ser concreto.

Foco quiere decir que no le des demasiado por hacer, estos conceptos así de subjetivos, de verdad me molestan, ¿Cuánto es poco?, ¿una, dos tareas?, en fin, lo fuimos calibrando agregando una tarea a la vez.

La IA y la Colaboración

Cuando tu asistente no es suficiente para manejar todas las tareas de tu proceso, una solución es dividir el trabajo entre varios asistentes y establecer una comunicación efectiva entre ellos. Aquí es donde entra en juego la famosa colaboración. Puedes hacer que la respuesta de un asistente sea el input del siguiente, lo cual tiene sentido: divides el proceso en elementos más atómicos y mantienes el foco en cada tarea específica. Sin embargo, esto también aumenta la necesidad de supervisión y la posibilidad de fallos.

Ah, y hay algo más: si quieres evitar que se equivoquen, es crucial generar mecanismos de feedback. A medida que implementas este enfoque, te das cuenta de que el sistema se vuelve cada vez más complejo…

La IA y los límites de seguridad

Si esto no es suficiente, tienes que limitar tu problema ante posibles casos de borde y decirle explícitamente que hacer en caso de llegar a estos límites, puede ser tiempo de respuesta sobrepasado, bucles infinitos o las mismas alucinaciones que son tan frecuentes entre las IA.

En resumen, como puedes ver iteramos un montón, sin embargo, nuestros asistentes, con días buenos y otros no tanto, tenían el mismo problema de fallar en lo básico y sin ninguna razón aparente.

Como resultado automatizamos de forma parcial, dejamos el flujo en manos de un experto y los pasos donde el asistente tenía menos probabilidad de falla, lo dejamos para nutrir de datos y ordenar los insumos. En general recuperamos el proceso y mejoramos la performance, pero en mi corazón quedé con esa espina de no haber logrado el ideal que buscaba al 100%, en fin, documentamos todo, y cerramos.

Chatgpt vs Deepseek

Luego de todo el revuelo de deepseek, llegué a la interfaz y le pregunté lo típico, preguntas de ingenio, cálculos elevados y otras pruebas básicas y otras con trampa, desde la entrada me sorprendió su interfaz, capacidad de leer tablas, y aceptar archivos, esto se ponía interesante, así que preparé un set de pruebas para ver el desempeño de ambos.

Prueba 1 : Chatgpt vs Deepseek - Análisis y cálculo

La primera prueba es simple, acá evalúo la capacidad de entender el problema y luego hacer un cálculo correcto. El enunciado es lineal y no es redundante.

“En un juego de azar se sortean 6 números de 36 posibles. Al jugar puedo elegir hasta 8 números. Si cada cartón vale $10 ¿cuánto dinero necesito para ganar el premio mayor?”

El primer error de GPT-4o es no entender el enunciado, omitió que eran 36 números posibles e hizo un cálculo de 6 números sobre 8, de ahí en adelante siguió con sus cálculos y me dijo que para ganar el premio mayor necesitaba $280.

Respuesta de GPT-4o

Respuesta de Deepseek

Deepseek no solo comprendió el problema y lo resolvió, sino que además lo pintó en pantalla con el CX de formulas impecable, para finalizar con un disclaimer interesante: “Este cálculo asume que el premio mayor es fijo y no se divide entre varios ganadores. En la práctica, los juegos de azar no suelen ser una inversión rentable, ya que el costo de cubrir todas las combinaciones supera ampliamente el valor del premio… buena reflexión!

Prueba 2 : Chatgpt vs Deepseek - Pensamiento lateral

Las IA suelen suelen ser muy buenas en tareas de razonamiento lógico, pero a veces pueden fallar en problemas que requieren un pensamiento lateral (fuera de lo común) o una comprensión profunda de contextos muy específicos. Para ello les pedí que resuelvan un acertijo clásico con una pequeña trampa.

El acertijo de las edades de las tres hijas es muy conocido y tiene una única solución, sin embargo si cambiamos un solo dato (2 hijas en vez de 3) el problema deja de tener solución, ya que una condición que se obtiene a través del pensamiento lateral, pierde validez. 

Gana la IA que logra encontrar la trampa y pierde la que intente forzar una respuesta a un acertijo conocido, veamos que pasa:

GPT-4o se fue por el camino fácil y no logró distinguir el cambio en la variable, repitió un modelo conocido.

Deepseek encontró la trampa de inmediato, explicó el problema pero detectó también el cambio en la variable.

Prueba 3 : Chatgpt vs Deepseek - Análisis de sentimientos

La atención a clientes garantiza que el servicio que otorga una compañía mantenga un nivel óptimo, detectando, movilizando la compañía y controlando a tiempo cualquier incidente o falla.

Como la atención presencial y telefónica de ejecutivos es cara, los canales digitales han aportado al capturar de forma digital muchos de los reclamos que reciben de forma diaria, acumulando cientos de quejas escritas de clientes en busca de soluciones.

Cree 35 reclamos ficticios, pero muy representativos, 31 de ellos negativos y 4 neutros y le di a ambas IA como tercera tarea, leer dicha información y categorizar el sentimiento correctamente en: Contento, Neutro y Molesto. Los 4 comentarios Neutros son éstos.

Esta prueba es muy relevante, se enfoca en el análisis del lenguaje natural, la capacidad de interpretar una intención y detectar problemas repetitivos.

La primera diferencia clara está en la profundidad de las respuestas. Mientras que GPT-4o entrega un resumen con su categorización, Deepseek argumenta su respuesta en cada caso.

GPT-4o detecta los 5 respuestas neutras, los 4 señuelos y una respuesta adicional.

Deepseek, detecta los cuatro señuelos neutros y explica que no demuestran enojo aparente.

GPT-4o detecta 5 situaciones neutras, esto genera de inmediato una contrapregunta con la nº 28. A lo que GPT responde que el comentario «si pudiera volver en el tiempo, jamás firmaría con ustedes», no es una declaración de molestia.

La segunda situación es más grave a mi entender, puesto que en vez de detectar las 35 respuestas, omitió una de ellas (Mini alucinación). Ignorando la alucinación anterior, este solo evento genera la perdida de confianza en el modelo, ya que más allá de la calidad de su respuesta ante el lenguaje natural, la discusión retrocede varios niveles y deja el marcador de ChatGPT vs Deepseek a favor de Deepseek +1. 

Prueba 4 : Chatgpt vs Deepseek - Prueba de la blancura

Vuelvo al comienzo… ¿Será capaz Deepseek de resolver el problema del análisis predictivo que inició todo este debate?. 

Sin más que probar, fui a mis archivos de hace casi 2 años y desempolvé el promp que tenía 12 tareas, entre ellas: leer un archivo pdf, interpretar la encuesta, determinar puntajes, buscar puntos críticos, determinar máximos y mínimos, evaluar reglas de negocio, escribir un código en phyton que se utilizaba como entrada de datos, redactar informes y realizar una serie de cálculos predictivos.

Con una soltura única, como si fuera un cubo rubic que había resuelto mil veces y ya conocía de memoria, se comió ese promp de cerca de 2000 token y lo digirió como papitas fritas.

Luego de maravillarme con la IA y desilusionarme también, volví a creer en esta tecnología que tiene mucho que ofrecer. Personalmente creo que somos observadores de un cambio histórico en la forma de crear y en la forma en que se relacionan las personas y la tecnología.

Personalmente creo que mientras más cerca de ellas, mayor será el beneficio en tu trabajo y entorno. El temor en estas nuevas tecnologías solo crea brechas, mientras que quien se atreva a integrar estas herramientas a su vida, encontrará una extensión de sus propias capacidades que harán una diferencia dando un plus evidente.

En resumen

Ahora, ¿Es Deepseek el nuevo santo grial de las LLM en IA?, acá no hay nada escrito, mientras estoy redactando esto, otras IA están apareciendo en el ruedo, mostrando sus mejores atributos, sin embargo, debo reconocer que la ballena China se merece todos los aplausos que sacó esta semana, amada por los usuarios y odiada por la competencia, Deepseek es un nuevo actor que llegó marcando presencia, democratizando la IA y ante eso, los que más ganan son los usuarios.

Finalmente con el marcador 0-4 entre ChatGPT vs Deepseek, el ganador se lleva todo. Veremos si en el siguiente encuentro hay nuevos retadores, o si ChatGPT con un modelo más robusto, vuelve en busca de su trono arrebatado.

Acerca del autor
Post recientes
Temas de interés