Hacer este álbum con IA ‘se sintió como vagar en un laberinto enorme’

, Forma parte de la Historia

El susto ha terminado y la diversión puede comenzar. Así es como tiendo a pensar en los esfuerzos creativos que involucran inteligencia artificial en estos días. Creo que hemos superado las afirmaciones hiperbólicas de que la IA hace que el arte humano sea redundante y ahora podemos disfrutar de todas las posibilidades que ofrece esta tecnología. En esa luz Planeta de las Sombras – un nuevo álbum creado como una colaboración a tres bandas entre dos humanos y la IA – muestra exactamente qué tipo de diversión se puede tener.

Planeta de las Sombras es la creación del escritor Robin Sloan, músico Jesse Solomon Clark, y Tocadiscos tragamonedas, un programa de música de aprendizaje automático creado por OpenAI. Después de una conversación improvisada en Instagram entre Sloan y Clark sobre la creación de una banda (llamada The Cotton Modules), los dos comenzaron a intercambiar cintas de música. Clark, un compositor experimentado, envió semillas de canciones a Sloan, quien las introdujo en Jukebox, que está entrenado en un enorme conjunto de datos de 1.2 millones de canciones e intenta autocompletar cualquier audio que escucha. El programa de inteligencia artificial, dirigido por Sloan, se basó en las ideas de Clark, que Sloan le envió para que las desarrollara más.

El resultado final de este comercio de tres vías es Planeta de las Sombras, un álbum atmosférico en el que fragmentos de canciones populares y ganchos electrónicos emergen como troncos cubiertos de musgo de un difuso pantano de loops ambientales y samples que se desintegran. Es un álbum completo en sí mismo: un universo musical de bolsillo para explorar.

Como Sloan me explicó en una entrevista por correo electrónico, el sonido de Planeta de las Sombras es en muchos sentidos el resultado de las limitaciones de Jukebox, que solo emite audio mono a 44,1 kHz. “Al hacer este álbum, aprendí que este tipo de modelo de IA es absolutamente un ‘instrumento’ que necesitas aprender a tocar”, me dijo. “¡Es básicamente una tuba! Una muy … extraña … y poderosa … tuba … «

Es este tipo de creatividad emergente, cuando las máquinas y los humanos responden a las limitaciones y ventajas en la programación de los demás, lo que hace que el arte de la IA sea tan interesante. Piense en cómo la evolución del clavicémbalo al piano afectó los estilos de música, por ejemplo, y cómo la capacidad de este último para tocar en voz alta o suave (en lugar de la dinámica única fija del clavicémbalo) engendró nuevos géneros musicales. Creo que esto es lo que está sucediendo ahora con toda una gama de modelos de IA que están dando forma a la producción creativa.

Puede leer mi entrevista con Sloan a continuación y descubrir por qué trabajar con el aprendizaje automático le pareció «como vagar por un enorme laberinto». Y puedes escuchar Planeta de las Sombras sobre Spotify, Música de Apple, iTunes, Campamento de la banda, o en Sloan and Clark’s sitio web.

Esta entrevista ha sido ligeramente editada para mayor claridad.

Hola Robin, gracias por tomarte el tiempo de hablarme sobre este álbum. En primer lugar, cuéntame un poco, por favor, ¿qué material te estaba enviando Jesse para comenzar esta colaboración? ¿Fueron canciones originales?

¡Sí! Jesse es compositor de comerciales, películas e instalaciones físicas: escribió la banda sonora generativa que se ejecuta dentro del centro de visitantes en Amazon’s Spheres en Seattle. Así que está acostumbrado a sentarse y producir un montón de opciones musicales. Cada cinta que recibí de él tenía alrededor de una docena de pequeñas “canciones”, algunas de solo 20-30 segundos de duración, otras de unos minutos, todas diferentes, todas separadas por un poco de silencio. Entonces, mi primera tarea fue siempre escuchar, decidir qué me gustaba más y copiarlo en la computadora.

Y luego los introdujo en un sistema de inteligencia artificial. ¿Puedes contarme un poco sobre ese programa? ¿Qué fue y cómo funciona?

Usé el modelo Jukebox de OpenAI, que entrenaron en ~ 1.2 millones de canciones, 600K de ellas en inglés; opera con muestras de audio sin procesar. Eso es una gran parte del atractivo para mí; Encuentro los sistemas de inteligencia artificial centrados en MIDI también … ¿educados? ¡Respetan demasiado la red! Los sistemas basados ​​en muestras (que he usado antes, en diferentes encarnaciones, incluyendo para hacer música para el audiolibro de mi última novela) son más crujientes y volátiles, así que me gustan más.

Para probar el modelo de Jukebox, utilicé mi propio código personalizado. La técnica que describe OpenAI en su publicación es muy parecida a: «Oye, Jukebox, ponme una canción que suene como The Beatles», pero quería poder «ponerlo raro», por lo que mi código de muestreo me permite especificar muchos diferentes artistas y géneros e interpolar entre ellos, aunque no tengan nada en común.

Y eso es solo la configuración. El proceso de muestreo en sí es interactivo. Siempre comenzaba con una «semilla» de una de las cintas de Jesse, que le daría al modelo una dirección, una vibra a seguir. En esencia, le diría al modelo: “Me gustaría algo que sea una mezcla de los géneros X e Y, algo así como los artistas A y B, pero también tiene que seguir esta introducción: «

También, en algunos casos, especifico la letra. Luego, iría de ocho a 10 segundos a la vez, generando tres opciones en cada paso: la computadora se agita durante cinco a 10 minutos, DIVERSIÓN, luego las reproduciría, seleccionaría una y continuaría … o, a veces, rechazaría las tres y comenzar de nuevo. Al final, tendría una muestra de entre 60 y 90 segundos de duración y la imprimí en cinta.

Para ser honesto, fue un proceso extremadamente lento y molesto, pero los resultados fueron tan interesantes y evocadores que siempre me motivó a seguir adelante.

¿Qué pensó Jesse sobre el material que le enviabas?

Subraya que trabajar con el material a menudo era MUY difícil. Instrumentos extraños surgían de la nada, o la tonalidad cambiaba de una manera extraña, etc. Pero creo que eso también era parte de la diversión, y la razón para hacer este proyecto: cada muestra que le enviaba era una rompecabezas para resolver.

En última instancia, su trabajo fue tanto receptivo – «¿cómo puedo apoyar esta muestra, ayudarla a brillar?» – y transformador – «¿qué tipo de canción debería ser esta?» Eso es evidente en todas las canciones, pero un claro ejemplo es «Magnet Train», donde Jesse se esforzó por mostrar y apoyar la interpretación vocal (extraña, tonta y genial) y luego la amplió con elementos que sugieren «train-ness»: el percusión chugging, etc.

¿Y cómo te concentraste exactamente en este sonido en particular, crees? ¿Qué te empujó en esta dirección?

Oh, definitivamente era el grano del medio. Al principio, le dije a Jesse que aunque el modelo podía producir sonido a 44,1 kHz, era solo en mono. Su respuesta fue: “¡Genial! Entonces usemos casetes mono «. Y la música que me envió también era mono. En su último pase de producción, agregó un poco de ancho estéreo, solo para que las canciones no estuvieran totalmente encerradas en el centro, pero es un álbum bastante «estrecho» en general, y eso se debe totalmente a la limitación de la IA, que decidimos abrazar y extender en lugar de luchar. Lo mismo ocurre con el sonido de baja fidelidad, granulado, de «radio sintonizada en un canal fantasma», un artefacto total de la forma en que el modelo produce música, que amplificamos aún más al hacer rebotar la música en la cinta tantas veces.

Entonces, en las canciones terminadas que estamos escuchando, ¿qué proporción de la música está hecha por IA y qué por humanos? ¿Es posible siquiera hacer esa distinción?

Realmente varía mucho de una canción a otra, y la verdad es que, en algunos casos, ¡perdimos la pista! Comenzaría con una frase de Jesse, la pondría en mi proceso de muestreo, se la enviaría de vuelta, él agregaría una capa o la ampliaría, me la enviaría de vuelta, la devolvería al proceso de muestreo … ¿Cuál es el desglose humano / AI allí? Todo está mezclado y en capas.

Hay una división que está clara: cada vez que escuchas algo que suene como una voz humana, ya sea enunciando letras con claridad o una especie de ooh-ing y ahh-ing, esa voz es generada por la IA.

Al hacer este álbum, aprendí que este tipo de modelo de IA es absolutamente un «instrumento» que debes aprender a tocar. Y he llegado a creer que la analogía es mucho más útil y generativa que como «co-compositor de IA» o «artista de IA automática» o cualquier otra analogía que puedas haber escuchado o imaginado. ¡Es básicamente una tuba! Una muy … extraña … y poderosa … tuba …

¡Jaja, cierto! He hablado con bastantes artistas que utilizan modelos de aprendizaje automático para hacer canciones o libros, y a menudo hablan sobre la dinámica entre ellos y la IA, ya sea que los empujara en una dirección determinada, por ejemplo. ¿Se sintió así para usted cuando estaba explorando qué música podía ofrecerle Jukebox?

Me encanta esto pregunta, y esta es la razón: anteriormente, he sido bastante escéptico / crítico con la «gran [AI] modelos entrenados en todo ”, incluso cuando han ganado prominencia. Esta es una clase que incluye GPT-3, Jukebox, CLIP, VQGAN, etc. Está muy claro que este enfoque produce resultados poderosos, pero siempre pensé que era más interesante creativamente asumir la responsabilidad de su propio conjunto de datos, entender su composición como un decisión creativa clave, etc. Y sigo pensando que eso es cierto, hasta cierto punto …

¡PERO!

La experiencia de usar Jukebox realmente me cambió en esto. Para mí, ha sido como vagar por un enorme laberinto o una ciudad muerta: enorme, llena de callejones y arcadas. Incluso ahora, después de haberlo usado durante tanto tiempo, no tengo idea de lo que todavía me espera allí, lo que se puede encontrar y llevar a cabo. Obviamente, estoy traicionando el hecho de que he jugado demasiados juegos de rol aquí … ¡pero de verdad! Ese es el sentimiento y es MUY divertido.

Con eso en mente, entonces, ¿qué crees que te enseñó el hacer este álbum con Jesse sobre el futuro de la inteligencia artificial y la creatividad? ¿Qué cree que harán estos sistemas en el futuro?

Las técnicas de IA pueden hacer un montón de cosas diferentes para diferentes tipos de artistas, por supuesto, pero con respecto a esta categoría específica, el modelo generativo que puede producir nueva música, nuevos sonidos. Me parece TOTALMENTE claro que están en camino de convertirse en un nuevo tipo de sintetizador o guitarra eléctrica. Creo que la historia será muy similar: pasarán del proyecto de investigación a la novedad (que es donde estamos ahora) a las herramientas para los virtuosos nacientes (¡es emocionante pensar en llegar a ese punto!) A los participantes comunes en cualquier / cada estudio.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *