Los modelos de redes neuronales profundas que impulsan las aplicaciones de aprendizaje automático más exigentes de la actualidad se han vuelto tan grandes y complejos que están superando los límites del hardware informático electrónico tradicional.
El hardware fotónico, que puede realizar cálculos de aprendizaje automático utilizando luz, ofrece una alternativa más rápida y energéticamente más eficiente. Sin embargo, existen ciertos tipos de cálculos de redes neuronales que un dispositivo fotónico no puede realizar, lo que requiere el uso de electrónica fuera del chip u otras técnicas que perjudican la velocidad y la eficiencia.
Tras una década de investigación, científicos del MIT y de otros lugares han desarrollado un nuevo chip fotónico que supera estos obstáculos. Demostraron un procesador fotónico totalmente integrado capaz de realizar todos los cálculos clave de una red neuronal profunda de forma óptica en el chip.
El dispositivo óptico pudo realizar cálculos clave para una tarea de clasificación de aprendizaje automático en menos de medio nanosegundo y al mismo tiempo logró una precisión superior al 92 %, un rendimiento comparable al del hardware tradicional.
El chip, compuesto por módulos interconectados que forman una red neuronal óptica, se fabrica mediante procesos de fundición comerciales, lo que podría permitir escalar e integrar la tecnología en la electrónica.
A largo plazo, el procesador fotónico podría permitir un aprendizaje profundo más rápido y con mayor eficiencia energética para aplicaciones computacionalmente exigentes, como lidar, investigación científica en astronomía y física de partículas o telecomunicaciones de alta velocidad.
« En muchos casos, no sólo importa el rendimiento del modelo, sino también la rapidez con la que se puede obtener una respuesta. Ahora que tenemos un sistema de extremo a extremo capaz de ejecutar una red neuronal ópticamente, a escala de nanosegundos, podemos empezar a pensar en un nivel superior de aplicaciones y algoritmos. “, comenta Saumil Bandyopadhyay, investigador visitante en el grupo de Fotónica Cuántica e IA en el Laboratorio de Investigación Electrónica (RLE) y becario postdoctoral en NTT Research.
Aprendizaje automático a través de la luz
Las redes neuronales profundas están compuestas por muchas capas interconectadas de nodos, o neuronas, que actúan sobre los datos de entrada para producir una salida. Una de las operaciones clave de una red neuronal profunda es utilizar álgebra lineal para realizar la multiplicación de matrices, que transforma los datos a medida que pasan de una capa a otra.
Pero además de estas operaciones lineales, las redes neuronales profundas realizan operaciones no lineales que ayudan al modelo a aprender patrones más complejos. Las operaciones no lineales, como las funciones de activación, permiten que las redes neuronales profundas resuelvan problemas complejos.
En 2017, el grupo de Englund, junto con investigadores del laboratorio de Marin Soljačić, Cecil e Ida Green, profesores de física, demostraron una red neuronal óptica en un solo chip fotónico que podía realizar la multiplicación de matrices con la luz.
Pero en ese momento, el dispositivo no podía realizar operaciones no lineales en el chip. Los datos ópticos tuvieron que convertirse en señales eléctricas y enviarse a un procesador digital para realizar operaciones no lineales.
« La no linealidad en óptica es un verdadero desafío, porque los fotones no interactúan fácilmente entre sí. Por lo tanto, activar no linealidades ópticas consume mucha energía y resulta difícil construir un sistema capaz de hacerlo de manera escalable. », dice el Sr. Bandyopadhyay.
Abordaron este desafío diseñando dispositivos llamados unidades de función óptica no lineal (NOFU), que combinan electrónica y óptica para implementar operaciones no lineales en el chip.
Los investigadores construyeron una red neuronal óptica profunda en un chip fotónico utilizando tres capas de dispositivos que realizan operaciones lineales y no lineales.
Una red totalmente integrada
Inicialmente, su sistema codifica en luz los parámetros de una red neuronal profunda. Luego, una serie de divisores de haz programables, como se muestra en el artículo de 2017, realiza la multiplicación de matrices en estas entradas.
Luego, los datos se transmiten a NOFU programables, que implementan funciones no lineales al desviar una pequeña cantidad de luz a fotodiodos que convierten señales ópticas en corriente eléctrica. Este proceso, que elimina la necesidad de un amplificador externo, consume muy poca energía.
« Permanecemos en el dominio óptico todo el tiempo, hasta el final, cuando queremos leer la respuesta. Esto nos permite conseguir una latencia muy baja. “, explica el Sr. Bandyopadhyay.
Esta baja latencia les permitió entrenar de manera eficiente una red neuronal profunda en el chip, un proceso conocido como entrenamiento in situ que normalmente consume una gran cantidad de energía en el hardware digital.
« Esto es particularmente útil para sistemas que procesan señales ópticas en el campo, como navegación o telecomunicaciones, pero también para sistemas que quieren aprender en tiempo real. », añade.
El sistema fotónico logró más del 96 % de precisión en las pruebas de entrenamiento y más del 92 % en la inferencia, lo que es comparable al hardware tradicional. Además, el chip realiza cálculos clave en menos de medio nanosegundo.
« Este trabajo demuestra que la computación (en esencia, el mapeo de entradas y salidas) se puede compilar en nuevas arquitecturas físicas lineales y no lineales que permitan una ley de escala fundamentalmente diferente de la computación versus el esfuerzo requerido. “, dice el señor Englund.
Todo el circuito se fabricó utilizando la misma infraestructura de fundición y los mismos procesos utilizados para producir chips de computadora CMOS. Esto podría permitir que el chip se fabrique a escala, utilizando técnicas probadas que introducen muy pocos errores en el proceso de fabricación.
Escalar su dispositivo e integrarlo en sistemas electrónicos reales, como cámaras o sistemas de telecomunicaciones, será un objetivo importante del trabajo futuro, afirma Bandyopadhyay. Además, los investigadores quieren explorar algoritmos que puedan aprovechar las ventajas de la óptica para entrenar sistemas más rápido y con mayor eficiencia energética.
Pie de imagen: Los investigadores han demostrado un procesador fotónico totalmente integrado capaz de realizar todos los cálculos clave de una red neuronal profunda ópticamente en un chip, lo que podría permitir un aprendizaje profundo más rápido y rentable para aplicaciones computacionalmente exigentes, como lidar o alto. -telecomunicaciones de velocidad.
A M. Bandyopadhyay se unen en este artículo Alexander Sludds ’18, MEng ’19, PhD ’23; Doctorado en Filosofía por Nicholas Harris ’17; Darius Bunandar PhD ’19; Stefan Krastanov, ex investigador de RLE que ahora es profesor asistente en la Universidad de Massachusetts Amherst; Ryan Hamerly, académico visitante de RLE e investigador principal de NTT Research; Matthew Streshinsky, ex director de fotónica de silicio de Nokia, ahora cofundador y director ejecutivo de Enosemi; Michael Hochberg, presidente de Periplous, LLC; y Dirk Englund, profesor del Departamento de Ingeniería Eléctrica e Informática, investigador principal del Grupo de Fotónica Cuántica e Inteligencia Artificial y RLE, y autor principal del artículo. La investigación se publica hoy en Nature Photonics.
Artículo : « Red neuronal profunda fotónica de un solo chip con entrenamiento solo hacia adelante » – s41566-024-01567-z
Fuente MIT – autor Adam Zewe – traducción de Enerzine.com