una solución unificada e inteligente para la ingeniería de datos

una solución unificada e inteligente para la ingeniería de datos
una solución unificada e inteligente para la ingeniería de datos
-

Databricks, la empresa de datos e inteligencia artificial, anunció hoy el lanzamiento de Databricks LakeFlow, una nueva solución que unifica y simplifica todos los aspectos de la ingeniería de datos, desde la ingesta de datos hasta la transformación y la orquestación. Con LakeFlow, los equipos de datos ahora pueden ingerir datos a escala de manera simple y eficiente desde bases de datos como MySQL, Postgres y Oracle, y aplicaciones empresariales como Salesforce, Dynamics, Sharepoint, Workday, NetSuite y Google Analytics. Databricks también presenta el modo en tiempo real para Apache SparkTM, que permite el procesamiento de transmisión de latencia ultrabaja.

LakeFlow automatiza la implementación, operación y monitoreo de canalizaciones a escala de producción con soporte CI/CD integrado y flujos de trabajo avanzados que admiten activación, bifurcación y ejecución condicional. Los controles de calidad de los datos y el monitoreo del estado están integrados en sistemas de alerta como PagerDuty. LakeFlow hace que la construcción y operación de canales de datos de nivel de producción sea simple y eficiente, al mismo tiempo que aborda los casos de uso de ingeniería de datos más complejos, lo que permite a los equipos de datos más ocupados satisfacer el crecimiento de la demanda de datos confiables e IA.

Abordar los desafíos de construir y operar canales de datos confiables

La ingeniería de datos es esencial para democratizar los datos y la IA dentro de las empresas, pero sigue siendo un área difícil y compleja. Los equipos de datos deben incorporar datos de sistemas aislados y, a menudo, propietarios, incluidas bases de datos y aplicaciones empresariales, lo que a menudo requiere la creación de conectores complejos y frágiles. Además, la preparación de datos implica mantener una lógica compleja, y las fallas y los picos de latencia pueden provocar interrupciones operativas y clientes descontentos. La implementación de canalizaciones y el monitoreo de la calidad de los datos generalmente requieren herramientas adicionales y dispares, lo que complica aún más el proceso. Las soluciones existentes están fragmentadas e incompletas, lo que genera baja calidad de los datos, problemas de confiabilidad, altos costos y un trabajo pendiente cada vez mayor.

LakeFlow aborda estos desafíos simplificando todos los aspectos de la ingeniería de datos a través de una experiencia única y unificada construida en la plataforma Databricks Data Intelligence con integraciones profundas con Unity Catalog para gobernanza de extremo a extremo y computación sin servidor que permite una ejecución altamente eficiente y escalable.

Características principales de LakeFlow

LakeFlow Connect: ingesta de datos simple y escalable desde cualquier fuente de datos. LakeFlow Connect ofrece una amplia gama de conectores nativos y escalables para bases de datos como MySQL, Postgres, SQL Server y Oracle, así como aplicaciones empresariales como Salesforce, Dynamics, Sharepoint, Workday y NetSuite. Estos conectores están completamente integrados con Unity Catalog, lo que permite una sólida gobernanza de datos. LakeFlow Connect incorpora las capacidades de baja latencia y alta eficiencia de Arcion, que fue adquirida por Databricks en noviembre de 2023. LakeFlow Connect hace que todos los datos, independientemente de su tamaño, formato o ubicación, estén disponibles para análisis por lotes y en tiempo real.

LakeFlow Pipelines: simplificación y automatización de canalizaciones de datos en tiempo real. Basado en la tecnología altamente escalable Delta Live Tables de Databricks, LakeFlow Pipelines permite a los equipos de datos implementar la transformación de datos y ETL en SQL o Python. Los clientes ahora pueden habilitar el modo en tiempo real para transmisión de baja latencia sin ningún cambio de código. LakeFlow elimina la necesidad de orquestación manual y unifica el procesamiento por lotes y flujos. Ofrece procesamiento de datos incremental para una relación precio/rendimiento óptima. LakeFlow Pipelines simplifica la creación y operación incluso de las transformaciones de datos por lotes y de transmisión más complejas.

Trabajos de LakeFlow: organice flujos de trabajo en toda la plataforma de inteligencia de datos. LakeFlow Jobs proporciona orquestación, estado y entrega de datos automatizados, desde la programación de cuadernos y consultas SQL hasta capacitación en aprendizaje automático y actualización automática del panel. Proporciona capacidades mejoradas de control de flujo y observabilidad integral para ayudar a detectar, diagnosticar y mitigar problemas de datos para mejorar la confiabilidad de la tubería. LakeFlow Jobs automatiza la implementación, orquestación y monitoreo de canales de datos en un solo lugar, lo que facilita que los equipos de datos cumplan sus promesas de entrega de datos.

Disponibilidad

Con LakeFlow, el futuro de la ingeniería de datos es unificado e inteligente. LakeFlow estará disponible en versión preliminar pronto, comenzando con LakeFlow Connect.

-

PREV Fotos y vídeo de la tercera Fiesta de Primavera del ICTjournal
NEXT Kanesatake | La SQ investiga dos derrames de productos peligrosos