DLT (blockchain), AI, RX(Realidad Extendida), QC (computación Cuántica), Nanotecnología, Biología Sintética y la interrelación y convergencia de dichas tecnologías.
(AWS Parte 2) Independientemente de lo que los clientes intenten hacer con los FM (ejecutarlos, desarrollarlos, personalizarlos),necesitan la infraestructura más r entable y de mayor rendimiento diseñada específicamente para ML.
Durante los últimos cinco años, AWS ha estado invirtiendo en nuestro propio silicio para impulsar el desempeño y la relación precio-rendimiento para cargas de trabajo exigentes como capacitación e inferencia de ML, y el chips AWS Trainium y AWS Inferentia ofrecen el costo más bajo para modelos de capacitación y ejecución de inferencia en la nube. Esta capacidad de maximizar el rendimiento y controlar los costos al elegir la infraestructura de aprendizaje automático óptima es la razón por la cual las empresas emergentes de IA líderes, como AI21 Labs, Anthropic, Cohere, Grammarly, Hugging Face, Runway y Stability AI, se ejecutan en AWS.
Las instancias Trn1, con tecnología de Trainium, pueden ofrecer hasta un 50 % de ahorro en los costos de capacitación en comparación con cualquier otra instancia EC2, y están optimizadas para distribuir la capacitación en varios servidores conectados con 800 Gbps de red Elastic Fabric Adapter (EFA) de segunda generación. Los clientes pueden implementar instancias Trn1 en UltraClusters que pueden escalar hasta 30 000 chips Trainium (más de 6 exaflops de cómputo) ubicados en la misma zona de disponibilidad de AWS con redes a escala petabit. Muchos clientes de AWS, incluidos Helixon, Money Forward y el equipo de búsqueda de Amazon, usan instancias Trn1 para ayudar a reducir el tiempo necesario para entrenar los modelos de aprendizaje profundo a mayor escala de meses a semanas o incluso días, al tiempo que reducen sus costos. 800 Gbps es mucho ancho de banda, pero hemos seguido innovando para ofrecer más, y hoy anunciamos eldisponibilidad general de nuevas instancias Trn1n optimizadas para la red , que ofrecen 1600 Gbps de ancho de banda de red y están diseñadas para ofrecer un rendimiento un 20 % superior al de Trn1 para modelos grandes que hacen un uso intensivo de la red . Debido a que la mayoría de los costos futuros de ML provendrían de la ejecución de inferencias, se priorizó el silicio optimizado por inferencia cuando comenzaron a invertir en nuevos chips hace unos años. En 2018, anunció Inferentia, el primer chip especialmente diseñado para inferencia. Cada año, Inferentia ayuda a Amazon a ejecutar billones de inferencias y ya ha ahorrado a empresas como Amazon más de cien millones de dólares en gastos de capital. Los resultados son impresionantes y vemos muchas oportunidades para seguir innovando, ya que las cargas de trabajo solo aumentarán en tamaño y complejidad a medida que más clientes integren IA generativa en sus aplicaciones.