La compañía de inteligencia artificial china (IA) Deepseek ha enviado ondas de choque a través de la comunidad tecnológica , con el lanzamiento de modelos de IA extremadamente eficientes que pueden competir con productos de vanguardia de compañías estadounidenses como OpenAi y Anthrope.
Fundada en 2023, Deepseek ha logrado sus resultados con una fracción del efectivo y el poder informático de sus competidores.
El modelo R1 de "razonamiento" de Deepseek, lanzado la semana pasada, provocó emoción entre los investigadores, la conmoción entre los inversores y las respuestas de los pesos pesados de IA. La compañía siguió el 28 de enero con un modelo que puede funcionar con imágenes y texto.
R1 de Deepseek es un modelo impresionante, particularmente en torno a lo que pueden entregar por el precio.
- Sam Altman (@sama) 28 de enero de 2025
¡Obviamente entregaremos modelos mucho mejores y también es legítimo tener un nuevo competidor! Subiremos algunos lanzamientos.
Entonces, ¿qué ha hecho Deepseek y cómo lo hizo?
Que hizo Deepseek
En diciembre, Deepseek lanzó su modelo V3 . Este es un modelo de lenguaje grande "estándar" muy potente que funciona en un nivel similar al GPT-4O de OpenAI y Claude 3.5 de Anthrope.
Si bien estos modelos son propensos a los errores y, a veces, constituyen sus propios hechos , pueden llevar a cabo tareas como responder preguntas, escribir ensayos y generar código de computadora. En algunas pruebas de resolución de problemas y razonamiento matemático, obtienen mejor que el humano promedio.
V3 fue entrenado a un costo reportado de aproximadamente US $ 5.58 millones. Esto es dramáticamente más barato que GPT-4, por ejemplo, que cuesta más de US $ 100 millones para desarrollarse.
Deepseek también afirma haber entrenado V3 utilizando alrededor de 2,000 chips de computadora especializados, específicamente GPU H800 hechas por NVIDIA . Esto es nuevamente mucho menos que otras compañías, que pueden haber usado hasta 16,000 de los chips H100 más potentes.
El 20 de enero, Deepseek lanzó otro modelo, llamado R1 . Este es un llamado modelo de "razonamiento", que trata de trabajar a través de problemas complejos paso a paso. Estos modelos parecen ser mejores en muchas tareas que requieren contexto y tienen múltiples partes interrelacionadas, como la comprensión de lectura y la planificación estratégica.
El modelo R1 es una versión ajustada de V3, modificada con una técnica llamada aprendizaje de refuerzo. R1 parece funcionar en un nivel similar al O1 de Opensei , lanzado el año pasado.
Deepseek también utilizó la misma técnica para hacer versiones de "razonamiento" de pequeños modelos de código abierto que pueden ejecutarse en computadoras domésticas.
Este lanzamiento ha provocado una gran oleada de interés en Deepseek, lo que aumenta la popularidad de su aplicación de chatbot con motor V3 y provocó un accidente de precio masivo en acciones tecnológicas a medida que los inversores reevalúan la industria de la IA. Al momento de escribir este artículo, el fabricante de chips Nvidia ha perdido alrededor de US $ 600 mil millones en valor.
¿Qué tan profundo lo hizo?
Los avances de Deepseek han sido para lograr una mayor eficiencia: obtener buenos resultados con menos recursos. En particular, los desarrolladores de Deepseek han sido pioneros en dos técnicas que los investigadores de IA pueden adoptar más ampliamente.
El primero tiene que ver con una idea matemática llamada "Sparsity". Los modelos de IA tienen muchos parámetros que determinan sus respuestas a las entradas (V3 tiene alrededor de 671 mil millones), pero solo se usa una pequeña fracción de estos parámetros para cualquier entrada dada.
Sin embargo, predecir qué parámetros se necesitarán no es fácil. Deepseek utilizó una nueva técnica para hacer esto, y luego entrenó solo esos parámetros. Como resultado, sus modelos necesitaban mucho menos entrenamiento que un enfoque convencional.
El otro truco tiene que ver con cómo V3 almacena información en la memoria de la computadora. Deepseek ha encontrado una forma inteligente de comprimir los datos relevantes, por lo que es más fácil almacenar y acceder rápidamente.
Lo que significa
Los modelos y técnicas de Deepseek se han lanzado bajo la licencia gratuita del MIT , lo que significa que cualquiera puede descargarlos y modificarlos.
Contenido de nuestros socios
Si bien esto puede ser una mala noticia para algunas compañías de IA, cuyas ganancias podrían ser erosionadas por la existencia de modelos poderosos y disponibles gratuitos, es una gran noticia para la comunidad de investigación de IA más amplia.
En la actualidad, una gran cantidad de investigación de IA requiere acceso a enormes cantidades de recursos informáticos. Investigadores como yo con sede en universidades (o en cualquier lugar excepto grandes compañías tecnológicas) han tenido una capacidad limitada para llevar a cabo pruebas y experimentos.
Los modelos y técnicas más eficientes cambian la situación. La experimentación y el desarrollo ahora pueden ser significativamente más fáciles para nosotros.
Para los consumidores, el acceso a la IA también puede volverse más barato. Se pueden ejecutar más modelos de IA en los propios dispositivos de los usuarios, como computadoras portátiles o teléfonos, en lugar de ejecutar "en la nube" para una tarifa de suscripción.
Para los investigadores que ya tienen muchos recursos, más eficiencia puede tener menos efecto. No está claro si el enfoque de Deepseek ayudará a hacer modelos con un mejor rendimiento en general, o simplemente modelos que sean más eficientes.
Tongliang Liu, profesor asociado de aprendizaje automático y director del Centro de AI de Sydney, Universidad de Sydney,
este artículo se republica a partir de la conversación bajo una licencia Creative Commons. Lea el artículo original .