El nuevo súper cerebro de Google abre el camino a una Inteligencia Social Artificial de expertos

Hacer una red neuronal está al acceso de casi cualquier persona con mínimos conocimientos en programación, ganas de aprender y un poco de tiempo libre. Hacer una red de redes neuronales ya no es tan fácil, y explotarla de forma eficiente es un quebradero de cabeza para expertos en Machine Learning, como ya vimos en este artículo de Google.

160310-neuron-630x354

Uno de los grandes problemas de la Inteligencia Artificial es la gigantesca cantidad de GPUs (capacidad de cálculo) necesarias para entrenar grandes redes neuronales. Las redes neuronales no sirven de nada si no son capaces de aprender o entrenarse en ciertas tareas, al igual que hacen nuestras neuronas biológicas. Es por eso que aunque se inventaron hace décadas, no ha sido hasta la última década que su uso se ha popularizado, al disponer de una mayor capacidad de cálculo a un precio muy bajo.

El tiempo de entrenamiento de las redes neuronales crece exponencialmente en función de su tamaño. Para cada ejemplo o situación que evalúan durante su entrenamiento, toda la red debe ser modificada, aunque algunas partes puedan incluso no activarse al procesar este ejemplo en concreto.

Por otro lado, la memoria de una red depende directamente del tamaño de la red. Cuanto mayor sea ésta, más patrones podrá aprender y recordar. Pero claro, tenemos que construir gigantes redes neuronales para procesar las toneladas de datos que tienen empresas como Google, Facebook o Microsoft y, por ende, necesitamos espeluznantes cantidades de memoria para poder recordar lo que se va aprendiendo. De este modo, los aumentos en capacidad computacional y capacidad de memoria empiezan a ser demasiado altos, siendo ya un lastre para los  mayúsculos deseos que tenemos en redes neuronales a día de hoy.

Pues bien, esto era así hasta que Google saca este paper de «Mezcla de capas de expertos»: Mixture of Experts Layer – MoE Layer, llamado concretamente:

«Outrageously Large Neural Networks:
The Sparsely-Gated Mixture-of-Experts Layer»

https://arxiv.org/abs/1701.06538

1-ZdzvkioEsXl7u0FFgPm-og.png

El concepto básico de la investigación es mantener a varios expertos dentro de la red neuronal, donde cada experto es en sí mismo una red neuronal. Se parece mucho al desarrollo de PathNet, también de Google.

Podéis pensar en estos expertos como humanos individuales especializados en diferentes tareas. Frente a esos expertos se encuentra la llamada «Gating Network», que elige a qué experto consultar para un dato concreto ¿Quién resuelve mejor este problema?. Más de un experto puede ser consultado simultáneamente (aunque el documento no especifica sobre el número óptimo de expertos).

Los resultados son muy prometedores. Esta estrategia muestra una mayor precisión que la anterior técnica de IA que se venía utilizando, necesitándose además sólo un 16% del tiempo de entrenamiento.

OH3gI.png

Con esta estrategia. podemos imaginar un futuro en el que la Inteligencia Artificial esté compuesta de expertos para todo tipo de tareas, posiblemente formando una Inteligencia Artificial General como ya os adelantamos en el anterior artículo. Tal vez, en la próxima iteración de esta tecnología, veamos ya una comunicación directa entre expertos para formar una Inteligencia Social Artificial. Ya sabemos que en la humanidad el conocimiento ha crecido masivamente al no limitarse a la suma de conocimiento de los individuos, sino al conseguir integrar las capacidades de los especialistas en cada tema. El método científico o la evolución de Internet son dos ejemplos claros de como una red de conocimiento social colaborativa basada en expertos, es más potente que ir añadiendo los avances de cada ser humano.

«La capacidad de una red neural para absorber información está limitada por su número de parámetros. La computación condicional, donde partes de la red están activas en cada ejemplo, se ha propuesto en la teoría como una forma de aumentar drásticamente la capacidad del modelo sin un aumento proporcional en el cálculo. Sin embargo, en la práctica existen desafíos algorítmicos y de rendimiento significativos. En este trabajo, abordamos estos retos y finalmente conseguimos la promesa de la computación condicional, logrando mejoras de más de 1000x en la capacidad del modelo con sólo pérdidas menores en eficiencia computacional en modernos clusters de GPU. «

Vía: Medium

 

Un comentario en “El nuevo súper cerebro de Google abre el camino a una Inteligencia Social Artificial de expertos

Deja un comentario