Básicamente, el principal elemento necesario es la potencia informática.
En cuanto a los datos, hay 3 casos a distinguir:
- entrenar un modelo,
- la simple ejecución de un modelo existente,
- el uso de un modelo existente con acceso a datos adicionales.
Para el entrenamiento, se necesita un gran stock de datos, posiblemente enriquecidos con metadatos para el aprendizaje (por ejemplo, para un modelo de reconocimiento de imágenes, tendremos un gran stock de imágenes, y para cada imagen, anotaciones que describan su contenido, generalmente hechas por un humano). u otra IA y luego verificado por un humano). Estos datos proceden a menudo de Internet, pero es preferible copiarlos localmente por razones de rendimiento y reproducibilidad (una imagen remota identificada por su URL, su contenido puede cambiar, etc.).
Para utilizar un modelo, los únicos datos necesarios son el modelo en sí (unas pocas decenas o cientos de GB, según el tamaño del modelo, que se replicarán en todos los nodos).
Para utilizar un modelo con enriquecimiento, también es necesario proporcionar datos de enriquecimiento, pero no necesariamente es necesario almacenarlos en el centro de datos, se pueden buscar a través de un motor de búsqueda externo. La idea en este nivel es que cuando le preguntas algo a tu modelo, en lugar de simplemente pasarle la pregunta sin procesar y que responda solo, realizamos un preprocesamiento que, según la pregunta, buscará documentos que podrían ser relevantes para el tema. luego estos documentos se envían al modelo con la pregunta para usarlos en la construcción de la respuesta. Entonces, en teoría, puedes hacer una consulta simple en un motor de búsqueda público para recuperar documentos y usarlos, sin tener que almacenarlos en el DC. En la práctica, en general obtendremos mejores resultados si el servicio crea su propio índice, como lo hace un motor de búsqueda, porque entonces el índice se puede optimizar para este uso. En particular, podremos utilizar nuestro propio algoritmo de búsqueda semántica de proximidad en lenguaje natural, que puede derivarse del modelo de IA, semántica para encontrar documentos, en lugar de estar “limitados” por las capacidades de un motor de búsqueda público. , no necesariamente siempre es muy bueno para el lenguaje natural.
En este último caso, además del modelo, almacenaremos al menos el índice y posiblemente también una parte de los documentos con los que se construyó, pero no todos, lo que rápidamente sería demasiado grande… Preferimos mantenga una referencia, y lástima que si el documento ya no es accesible, lo eliminaremos del índice.