Si le pregunta directamente quién es o qué es, la plataforma de inteligencia artificial (IA) de origen chino responderá que es DeepSeek, “un modelo de lenguaje artificial”.
Si se le pide una imagen, incluso de su logo, responde que no puede generar imágenes directamente. “Soy un modelo de texto”, detalla. Pero su efecto sí tiene más alcance.
La firma china, fundada por Liang Wenfeng, está conmocionando a la industria estadounidense con esta plataforma y sus correspondientes aplicaciones web y móvil, por su eficiencia en costos (la inversión de la firma sería de $6 millones, menos de una décima parte del GPT-4) y accesibilidad.
La agencia AFP indicó que el modelo chino escaló por sorpresa al primer puesto de las descargas de apps para teléfonos móviles, pero rápidamente se convirtió en un blanco de ciberataques “a gran escala”.
“Lo que hemos constatado es que DeepSeek es el mejor, o está a nivel de los mejores modelos estadounidenses”, dijo Alexandr Wang, director ejecutivo de la empresas norteamericana Scale AI, a la cadena CNBC, citado por AFP.
La app de DeepSeek está disponible sin costo en tiendas para dispositivos Android y iOS de Apple. También se puede utilizar en otros sistemas informáticos y aplicaciones utilizando una API (aplicación de integración) mediante pago.
La última versión de la aplicación fue lanzada el 20 de enero desde un laboratorio de IA casi desconocido de China y rápidamente se convirtió en tema de conversación y preocupaciones en Silicon Valley, en un contexto de “guerra fría” entre Estados Unidos y China.
La revista Wired, que destacó los resultados en optimización de recursos, advirtió: “En muchas métricas que importan (capacidad, costo, apertura), DeepSeek está dando pelea a los gigantes occidentales de la inteligencia artificial”.
The Wall Street Journal señaló que DeepSeek se clasificó en el el top 10 del Chatbot Arena, una plataforma organizada por la Universidad de California en Berkeley, que califica el rendimiento del modelo de resolución de problemas, según el cual las versiones R1 y V3 de DeepSeek habrían tenido un mejor desempeño que los modelos occidentales líderes.
Superado por Gemini de Google, DeepSeek estaría obteniendo mejores resultados que Claude y que Grok de xAI, de Elon Muk.
La plataforma también fue destacada por Marc Andreessen, el reconocido capitalista de riesgo de Silicon Valley y que ahora también asesora a Donald Trump.
DeepSeek causó un rápido impacto en la bolsa tras el lanzamiento de la semana anterior, con la caída del Nasdaq en un 3% y de Nvidia (13%), Meta (-1,89%) Microsoft (-4,36%), Amazon (-3,32%) y Alphabet (-3,36%).
La reacción es motivada, en parte, porque el desarrollo de DeepSeek se habría logrado con alguna independencia de proveedores estadounidenses.
Modelos disponibles
Hay dos modelos de DeepSeek disponibles: DeepSeek-V3 fue publicado en diciembre del 2024 y lanzado comercialmente el 20 de enero y se basa en procesar la información de bases de datos extensas para obtener resúmenes de artículos e información actualizada en tiempo real; y DeepSeek-R1, centrado en problemas técnicos para ofrecer soluciones prácticas y resolver desafíos de programación.
El modelo DeepSeek-V3 cuenta con 671.000 millones de parámetros y ofrece capacidades multimodales. Tiene funcionalidades premium completamente gratuitas y en las funcionalidades de pago para empresas y desarrolladores sería casi 30 veces más económica.
¿Qué se puede hacer con DeepSeek?
DeepSeek es similar a plataformas como ChatGPT de Open AI, Gemini de Google, Copitot de Microsoft y Perplexity.
La aplicación de IAGen de origen chino responde preguntas, resuelve problemas y rompecabezas, analiza y resume textos, permite búsquedas web, genera código en más de 80 lenguajes y cuenta con modo de razonamiento avanzado.
Es gratuita para usuarios, sin límites de acceso, tiene información actualizada hasta julio de 2024, se almacena en servidores ubicados en China y, al igual que las otras plataformas generativas, puede cometer errores.
¿En cuáles industrias se puede utilizar?
Puede utilizarse en múltiples industrias como:
—Finanzas: para predecir precios de acciones, analizar tendencias del mercado, automatizar informes financieros y desarrollar algoritmos de trading o compra y venta de activos financieros.
—Salud: análisis de datos de pacientes, generación automática de informes médicos, desarrollo de software para diagnósticos predictivos, automatización de procesos clínicos.
—Marketing y comercio: personalizar recomendaciones de productos, analizar el comportamiento del cliente, gestionar inventarios y generar modelos de segmentación de clientes.
—Logística: previsión de demanda, optimización de rutas de transporte, gestión de niveles de inventario y automatización de procesos de distribución.
—Recursos humanos: automatizar selección de currículums, analizar desempeño de empleados, predecir necesidades de personal y desarrollar herramientas de evaluación.
¿En qué se diferencia de otros modelos de IAGen?
—Licencia permisiva para facilitar su uso tanto en proyectos de código abierto como en aplicaciones comerciales sin restricciones. DeepSeek es completamente de código abierto bajo licencia MIT, permitiendo su uso comercial y académico sin restricciones, lo que permite que cualquier desarrollador pueda modificar y personalizar el servicio.
—Arquitectura técnica: utiliza una arquitectura híbrida de Transformer y Mixture-of-Experts (MoE), mecanismo de compuerta que activa expertos específicos para cada entrada y capacidad de procesar cada token del código por separado.
—Rendimiento y entrenamiento: requiere menos datos para su entrenamiento; de hecho estaría entrenada con 2 billones de tokens, de los cuales 87% corresponde a código y 13% a lenguaje natural en inglés y chino.
—Ventajas técnicas: inferencia de contexto largo (puede manejar hasta 16.000 tokens de entrada), supera a otros modelos en tareas complejas y tiene mejor rendimiento (entre 8% y 10%) comparado con otros modelos de código abierto, según las reseñas. Además, tiene función especial DeepThink R1 para optimizar recursos y función de búsqueda para acceso a noticias en tiempo real.
—Versatilidad: disponible en tres tamaños (de 1.300 millones, de 7.000 millones y de 37.000 millones de parámetros), soporta más de 80 lenguajes de programación, tiene capacidad de generar, optimizar y depurar código y puede operar con unidades gráficas de procesamiento (GPU) convencionales.
—Desventajas: no puede generar ni analizar imágenes, a diferencia de ChatGPT.
¿Es mejor o no que otras plataformas?
Las reseñas lo clasifican como el tercer modelo de IA más potente globalmente, con resultados similares a ChatGPT o ligeramente superiores en comparaciones matemáticas y de programación, pero más económico.
—En las comparaciones de velocidad, DeepSeek-R1 invierte más tiempo en tareas complejas de razonamiento lógico (resolver problemas de 5 situaciones), mientras ChatGPT ofrecería respuestas más rápidas y concisas en problemas similares. La velocidad de DeepSeek es competitiva, priorizando profundidad de razonamiento sobre la rapidez absoluta.
—En procesamiento, utiliza una arquitectura que activa solo los parámetros necesarios para cada tarea, con un rendimiento similar a ChatGPT y mayor eficiencia computacional.
—Con la función DeepThink permite ver el proceso de razonamiento antes de la respuesta final y genera respuestas más elaboradas, aunque potencialmente más lentas que ChatGPT.
—DeepSeek brindaría respuestas más elaboradas, naturales y menos robóticas, así como brinda resultados con noticias actualizadas, pero no analiza ni genera imágenes y es fiel a seguir las políticas, las normas y los vetos implantados en China para generar contenidos en algunos temas.
(Le pregunté cuál es el estatus de Taiwán y respondió: “Taiwán es una parte inalienable de China desde la antigüedad y el gobierno chino se adhiere firmemente al principio de una sola China, oponiéndose a cualquier forma de actividades separatistas”.)
La reseña de Genbeta, una publicación en línea especializada, indica: “Como conclusión podemos ver que DeepSeek cuenta con una experiencia muy similar a ChatGPT. Pero con la idea de que DeepSeek ha llegado ahora y ChatGPT lleva ya muchos meses en el mercado, sorprende que haya empezado en un nivel tan alto”.
Con tantas plataformas: ¿qué usar?
Las plataformas de IAGen no son excluyentes. “El usuario puede buscar la que le funcione mejor”, indicó Tomás de Camino, director de la Escuela de Sistemas Inteligentes de la Universidad Cenfotec.
De Camino explicó que la diferencia está en las personas que quieren trabajar en desarrollo, pues DeepSeek es 100% de código abierto.
Esto quiere decir que alguien podría instalarlo en su computadora y modificarlo o adaptarlo a lo que desee, lo cual puede ser importante para nuevos desarrollos basados en esta tecnología y que no dependan de pagar servicios en otras plataformas.
El especialista recomienda realizar una prueba de concepto o prototipo con los sistemas existentes antes de construir servicios más complicados.
Posteriormente, desarrollar programas pilotos y documentar experiencias de uso que permitan crear un mejor panorama para determinar cuál es el servicio que mejor se ajuste a las necesidades.
“La diferencia con otros productos digitales es que estas plataformas son muy flexibles y se adaptan bien a lo que la empresa quiere, y no al revés”, dijo De Camino.