IBM comenta en una reciente publicación que la programación se ha extendido a muchos aspectos de nuestras vidas. Pero el modo en que se escribe, prueba, corrige y distribuye el software sigue implicando un trabajo arduo. Además, nuevos lenguajes aparecen cada año y los viejos reciben actualizaciones.
La compañía recuerda que en 2021 presentó CodeNet, una base de datos con más de 500 millones de líneas de código en 50 lenguajes de programación. En ese momento el objetivo era implementarlo para el entrenamiento de agentes de IA, con la idea de que tradujeran programas de un lenguaje a otro. La posibilidad de que la inteligencia artificial escribiera el código fue considerada, pero de forma limitada.
Más recientemente, IBM desarrolló la plataforma Watsonx Code Asistant para ayudar a los programadores con sus tareas.
Apuesta al código abierto
Ahora la empresa ha decidido poner bajo un sistema de código abierto (licencia Apache 2.0) a los modelos de la familia Granite que sostienen el WCA. Estos programas son capaces de generar código en unos 116 lenguajes de programación. Los más sencillos trabajan con unos 3 mil millones de parámetros, los más complejos alcanzan los 34 mil millones.
Los modelos están disponibles en Hugging Face, GitHub, watsonx.ai, y RHEL AI.
IBM sostiene que muchas empresas han dudado en implementar los modelos generativos porque los esquemas de licencias ofrecidos no son claros. Además, no hay seguridades sobre el modo en que los datos fueron curados: si acaso se se eliminaron elementos vinculados al abuso, el discurso del odio y otros contenidos problemáticos.
El entorno de código abierto aparece como una posible solución