SpaceX revela el servicio Starlink ‘Premium’ mensual de $ 500 con velocidades de hasta 500 Mbps — clon
La ola actual de inteligencia artificial se remonta a 2012, y un concurso académico que midió qué tan bien los algoritmos podían reconocer objetos en fotografías.
Ese año, los investigadores descubrieron que introducir miles de imágenes en un algoritmo inspirado libremente en la forma en que las neuronas del cerebro responden a las entradas produjo un gran salto en la precisión . El avance provocó una explosión en la investigación académica y la actividad comercial que está transformando algunas empresas e industrias .
Ahora, un nuevo truco, que consiste en entrenar el mismo tipo de algoritmo de IA para convertir imágenes 2D en una rica vista 3D de una escena, está generando entusiasmo en el mundo de los gráficos por computadora y la IA. La técnica tiene el potencial de revolucionar los videojuegos , la realidad virtual , la robótica y la conducción autónoma . Algunos expertos creen que incluso podría ayudar a las máquinas a percibir y razonar sobre el mundo de una manera más inteligente, o al menos similar a la humana .
“Hace mucho calor, hay un gran revuelo”, dice Ken Goldberg, especialista en robótica de la Universidad de California, Berkeley, que está utilizando la tecnología para mejorar la capacidad de los robots mejorados con IA para captar formas desconocidas. Goldberg dice que la tecnología tiene “cientos de aplicaciones”, en campos que van desde el entretenimiento hasta la arquitectura.
El nuevo enfoque implica el uso de una red neuronal para capturar y generar imágenes en 3D a partir de unas pocas instantáneas en 2D, una técnica denominada “representación neuronal”. Surgió de la fusión de ideas que circulaban en gráficos por computadora e IA, pero el interés explotó en abril de 2020 cuando investigadores de UC Berkeley y Google demostraron que una red neuronal podía capturar una escena de manera fotorrealista en 3D simplemente viendo varias imágenes en 2D de ella.
Ese algoritmo explota la forma en que la luz viaja por el aire y realiza cálculos que calculan la densidad y el color de los puntos en el espacio 3D. Esto hace posible convertir imágenes 2D en una representación 3D fotorrealista que se puede ver desde cualquier punto posible. Su núcleo es el mismo tipo de red neuronal que el algoritmo de reconocimiento de imágenes de 2012, que analiza los píxeles en una imagen 2D. Los nuevos algoritmos convierten píxeles 2D en el equivalente 3D, conocido como vóxeles. Los videos del truco, que los investigadores llamaron Neural Radiance Fields, o NeRF, cautivaron a la comunidad científica.
“Hace 20 años que me dedico a la visión por computadora, pero cuando vi este video, pensé: ‘Vaya, esto es simplemente increíble’”, dice Frank Dellaert , profesor de Georgia Tech.
Para cualquiera que trabaje en gráficos por computadora, explica Dellaert, el enfoque es un gran avance. La creación de una escena 3D detallada y realista normalmente requiere horas de minucioso trabajo manual. El nuevo método hace posible generar estas escenas a partir de fotografías ordinarias en minutos. También proporciona una nueva forma de crear y manipular escenas sintéticas. “Es seminal e importante, lo cual es una locura para decir de un trabajo que solo tiene dos años”, dice.
Dellaert dice que la velocidad y la variedad de ideas que han surgido desde entonces han sido impresionantes. Otros han utilizado la idea para crear selfies en movimiento (o ” nerfies “), que te permiten moverte alrededor de la cabeza de una persona en función de algunas imágenes fijas; para crear avatares en 3D a partir de una sola fotografía; y desarrollar una forma de volver a iluminar automáticamente las escenas de manera diferente .
El trabajo ha ganado tracción en la industria con una velocidad sorprendente. Ben Mildenhall , uno de los investigadores detrás de NeRF que ahora está en Google, describe el florecimiento de la investigación y el desarrollo como “un maremoto lento”.
Los investigadores de Nvidia , que fabrica chips de computadora tanto para IA como para juegos de computadora, publicaron artículos que usan NeRF para generar imágenes 3D a partir de colecciones de fotos , para producir texturas más realistas en animación y señalan avances para videojuegos . Facebook (ahora Meta) ha desarrollado un enfoque similar a NeRF que podría usarse para desarrollar escenas en el tan cacareado Metaverse de Mark Zuckerberg . Yann LeCun, científico jefe de IA en Meta y pionero del enfoque que sacudió las cosas en 2012, califica el nuevo trabajo de “fascinante” y los resultados “bastante impresionantes”.
NeRF puede ser especialmente útil para máquinas que operan en el mundo real. Goldberg, quien es uno de los principales expertos mundiales en agarre robótico, y sus colegas usaron NeRF para entrenar a los robots para que den sentido a los objetos transparentes , normalmente un desafío debido a la forma en que estos objetos reflejan la luz, permitiéndoles inferir la forma de un objeto basado en en una imagen de vídeo.
Los fabricantes de autos sin conductor también están encontrando usos para la idea. Durante una presentación en agosto, Andrej Karpathy , director de IA de Tesla , dijo que la compañía estaba usando la tecnología para generar escenas 3D necesarias para entrenar sus algoritmos de conducción autónoma para reconocer y reaccionar ante más escenarios en la carretera.
Las ideas detrás de NeRF bien pueden ser importantes para la propia IA. Esto se debe a que comprender las propiedades físicas del mundo real es crucial para darle sentido.
“Estos métodos, que surgieron de los gráficos por computadora, están teniendo un gran impacto en la IA”, dice Josh Tenenbaum , profesor del MIT que estudia los principios computacionales detrás del aprendizaje y la inferencia humanos.
Tenenbaum señala el trabajo de Vincent Sitzmann , un profesor asistente recién nombrado en el MIT. En 2019, Sitzmann y otros introdujeron por primera vez la idea de utilizar la representación neuronal para generar representaciones 3D de objetos basadas en un número limitado de imágenes 2D de ellos.
El trabajo de Sitzmann no produce una imagen 3D fotorrealista completa: el algoritmo infiere la forma aproximada de un objeto a partir de una imagen incompleta. Esto es algo que los humanos hacen de forma rutinaria, señala Tenenbaum. “Si quiero levantar algo, como la taza de café que tengo delante, mi sistema de percepción adivina implícitamente dónde está la parte posterior de la taza cuando cierro la mano alrededor de ella”, dice.
Más recientemente, Sitzmann; Semon Rezchikov , investigador de Harvard; y otros han mostrado una forma más eficiente desde el punto de vista computacional para que una red neuronal represente una escena. Los métodos en los que están trabajando podrían permitir que los programas de IA identifiquen objetos por sus formas 3D, reconociendo un automóvil o una taza, incluso si el diseño es radicalmente diferente de lo que ha visto antes.
En otras palabras, NeRF y las ideas relacionadas podrían, en última instancia, permitir que la IA aprenda sobre el mundo de una manera más sofisticada, allanando el camino para que los robots operen en entornos complejos y desconocidos sin cometer errores garrafales.
Tenenbaum dice que la evidencia de la ciencia cognitiva también sugiere que el cerebro humano hace algo similar cuando una persona mira a su alrededor. “Es complicado”, dice sobre los pasos computacionales involucrados. “Pero el cerebro también es complicado”.
Información extraída de Wired, puedes ingresar en su sitio web https://www.wired.com/