Hugging Chat, Whisper, Stable Diffusion… Aquí tienes las alternativas de código abierto a la mejor IA del mercado.
La IA accesible para todos será posible en 2024. Junto a los actores propietarios de la IA generativa, el ecosistema de código abierto ha crecido considerablemente en los últimos 24 meses. Las alternativas gratuitas son hoy casi tan eficientes como sus equivalentes propietarios. JDN enumera las mejores herramientas y modelos de IA gratuitos del mercado para generar texto, imágenes e incluso transcripción.
Hugging Chat: la alternativa a ChatGPT
Charla de abrazos destaca como una de las alternativas de código abierto más prometedoras a ChatGPT. Desarrollado por Hugging Face, el chatbot se puede configurar con varios modelos de última generación: Llama-3.1 70B de Meta, Command R+ de Cohere, Qwen2.5-72B (de Qwen), Llama-3.1-Nemotron 70B de Nvidia, Llama- 3.2 -11B Vision de Meta, Hermes 3 de NousResearch, Mistral Nemo de Mistral AI y finalmente Phi 3.5 de Mistral AI. Para generar resúmenes o textos, se prefiere Llama-3.1 70B. Para enviar imágenes al modelo para su análisis, utilice Llama-3.2-11B.
En los últimos meses, Hugging Chat realmente ha crecido. Es posible crear tus propios bots personalizados y utilizar herramientas, como con ChatGPT: búsqueda web, generación de imágenes, edición de imágenes, calculadora… También es posible utilizar una de las 37 herramientas (en noviembre de 2024) desarrolladas por el comunidad.
Difusión estable: la alternativa a Dall-E y Midjourney
Si bien la IA patentada todavía domina la generación de imágenes, los modelos de código abierto han logrado avances significativos en los últimos 12 meses. El más popular, Difusión establele permite generar imágenes en una gran cantidad de estilos diferentes. La última versión 3.5 ofrece una mejor adherencia a las indicaciones, imágenes más detalladas y resultados generales más realistas. ¿Su fuerza? Es posible ejecutarlo localmente con una configuración relativamente razonable (con la gama RTX de Nvidia en particular).
Otra alternativaFLUX.1 Desarrolladordesarrollado por el laboratorio de la Selva Negra, ofrece muy buenos resultados. FLUX.1 Dev ofrece una excelente calidad de imagen. Funciona particularmente bien con indicaciones complejas y ofrece una muy buena comprensión de escenas detalladas. Debido a su arquitectura híbrida, el modelo suele ser más rápido que Stable Diffusion en la inferencia, pero requiere más recursos de hardware.
Whisper: la alternativa a los modelos STT de los proveedores de nube
Google Speech-to-Text en Google Cloud, Amazon Transcribe en AWS, Azure Speech to Text en Microsoft… Los proveedores de la nube han dominado durante mucho tiempo la transcripción de IA. Pero la llegada de Susurro en OpenAI está empezando a reorganizar las cartas. Disponible como código abierto con actualizaciones periódicas (al menos una vez al año), Whisper ofrece una alternativa sólida a los modelos propietarios de conversión de voz a texto.
El modelo sigue siendo muy eficiente, incluso con grabaciones de audio que contienen mucho ruido y sea cual sea el idioma. ¿Su único límite? Un vocabulario limitado, particularmente en campos léxicos ultraespecializados. (ejemplo: acrónimo médico). Finalmente, la última versión Turbo (large-v3-turbo) ofrece una generación mucho más rápida con una pérdida marginal de precisión (menos del 5%).
Para inferir el modelo sin utilizar un servidor dedicado o una API paga, es posible ejecutar el modelo de forma gratuita en Google TPU con Google Colab.
Audio y vídeo: los modelos de código abierto se quedan atrás
El sector mucho más nuevo de la IA generativa para audio y vídeo aún carece de madurez. Varios modelos propietarios como Runway o Pika para vídeo, o Suno AI y MusicFX para audio, están empezando a ofrecer resultados aceptables. Por otro lado, el código abierto todavía no está muy avanzado. Los raros modelos de alto rendimiento, como Audiocraft de gol o Difusión de vídeo estable de Estabilidad, todavía están cerca del estado de la investigación y no producen ningún resultado verdaderamente cualitativo.
A pesar de los considerables recursos de los gigantes tecnológicos, la IA de código abierto compite hoy con soluciones patentadas en varias áreas. Este éxito se debe en gran medida a Meta, que hizo accesibles modelos potentes como Llama, pero también a Hugging Face, cuya plataforma acoge nuevos modelos mejorados por la comunidad cada día.
El principal desafío para la IA de código abierto ya no radica tanto en la calidad de los modelos sino en el acceso a los recursos de inferencia. Hospedar y ejecutar modelos representa costos sustanciales, e incluso los proveedores de código abierto que actualmente ofrecen plataformas de inferencia gratuitas, como Hugging Face con su Hugging Chat, es posible que no puedan mantener esta gratuidad indefinidamente.