Inference

Servidor de Inferencia NVIDIA Triton

Implemente, ejecute y escale IA para cualquier aplicación en cualquier plataforma.

Empezar

Vea el Video | Lea el Informe Técnico | Para Desarrolladores

Overview
Features
Benefits
Starting Options
Use Cases
Customer Stories
Adopters
Resources
Next Steps

Overview
Features
Benefits
Starting Options
Use Cases
Customer Stories
Adopters
Resources
Next Steps

Get Started

Descripción General

Inferencia para Cada Carga de Trabajo de IA

Ejecute inferencias en modelos de machine learning o deep learning entrenados desde cualquier framework en cualquier procesador (GPU, CPU u otro) con el Servidor de Inferencia NVIDIA Triton™. El Servidor de Inferencia Triton es un software de código abierto que estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo. Forma parte de la plataforma de IA de NVIDIA y está disponible con NVIDIA AI Enterprise.

Implementación, Optimización y Evaluación Comparativa de LLM

Obtenga instrucciones paso a paso sobre cómo servir grandes modelos de lenguaje (LLM) de manera eficiente utilizando el Servidor de Inferencia Triton.

Vea la Sesión

Funciones

Explore las Funciones y Herramientas del Servidor de Inferencia NVIDIA Triton

Inferencia de Grandes Modelos de Lenguaje

Triton ofrece baja latencia y alto rendimiento para la inferencia de grandes modelos de lenguaje (LLM). Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para la inferencia en producción.

Conjuntos de Modelos

Los Conjuntos de Modelos Triton le permite ejecutar cargas de trabajo de IA con varios modelos, pipelines y pasos de preprocesamiento y posprocesamiento. Permite la ejecución de diferentes partes del conjunto en la CPU o la GPU, y admite múltiples frameworks dentro del conjunto.

NVIDIA PyTriton

PyTriton permite a los desarrolladores de Python poner en marcha Triton con una sola línea de código y usarlo para servir modelos, funciones de procesamiento simples o pipelines de inferencia completas para acelerar la creación de prototipos y las pruebas.

Analizador de Modelos NVIDIA Triton

El Analizador de Modelo reduce el tiempo necesario para encontrar la configuración óptima de implementación del modelo, como el tamaño del lote, la precisión y las instancias de ejecución simultáneas. Ayuda a seleccionar la configuración óptima para cumplir con los requisitos de latencia, rendimiento y memoria de las aplicaciones.

Beneficios

Las Ventajas del Servidor de Inferencia Triton

Soporta Todos los Frameworks de Entrenamiento e Inferencia

Implemente modelos de IA en cualquier framework principal con Servidor de Inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado y más.

Inferencia de Alto Rendimiento en Cualquier Plataforma

Maximice el rendimiento y la utilización con el procesamiento por lotes dinámico, la ejecución simultánea, la configuración óptima y la transmisión de audio y vídeo. El Servidor de Inferencia Triton es compatible con todas las GPU de NVIDIA, CPU x86 y Arm, y AWS Inferentia.

Código Abierto y Diseñado para DevOps y MLOps

Integre el Servidor de Inferencia Triton en soluciones de DevOps y MLOps, como Kubernetes para el escalado y Prometheus para la supervisión. También se puede utilizar en todas las principales plataformas de IA y MLOps en la nube y en las instalaciones .

Seguridad, Capacidad de Gestión y Estabilidad de API de Nivel Empresarial

NVIDIA AI Enterprise, incluido NVIDIA Servidor de Inferencia Triton, es una plataforma de software de IA segura y lista para la producción diseñada para acelerar el tiempo de generación de valor con soporte, seguridad y estabilidad de API.

Opciones de Inicio

Primeros Pasos con NVIDIA Triton

Utilice las herramientas y tecnologías adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.

Desarrolla

Para personas que buscan obtener acceso al código fuente abierto de Servidor de Inferencia Triton para el desarrollo.

Código de Acceso

Desarrolla

Para personas que buscan acceder a contenedores gratuitos de Servidor de Inferencia Triton para el desarrollo.

Vea los Contenedores

Experiencia

Accede a la infraestructura alojada en NVIDIA y a los laboratorios prácticos guiados que incluyen instrucciones paso a paso y ejemplos, disponibles de forma gratuita en NVIDIA LaunchPad.

Acceso a Laboratorios
Prácticos

Desplega

Obtén una licencia gratuita para probar NVIDIA AI Enterprise en producción durante 90 días con tu infraestructura existente.

Solicita Una Licencia
de 90 Días

Compara las Opciones de Empezar

Casos de Uso

Cómo Se Utiliza Triton

Descubra cómo los líderes del sector están impulsando la innovación con Servidor de Inferencia Triton.

Unificando Servidores de Inferencia

El Servidor de Inferencia Triton permite a las organizaciones consolidar sus servidores de inferencia específicos del framework en una única plataforma unificada. En lugar de implementar y administrar servidores separados para cada framework de IA, actúa como un servidor único y unificado, lo que reduce los costos de servicio de inferencia. El Servidor de Inferencia Triton es compatible con todos los principales frameworks de IA, incluidos PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX y OpenVINO.

Descubre Cómo Snapchat Está Usando Triton para Mejorar la Experiencia de Compra

Optimice las Implementaciones de Modelos

El Servidor de Inferencia Triton puede realizar barridos automatizados para probar la latencia y el rendimiento en muchas configuraciones de simultaneidad de modelos y tamaños de lotes. Esto permite a los desarrolladores identificar rápidamente la configuración más eficaz que cumpla con su acuerdo de nivel de servicio sin ningún trabajo manual. Para los modelos de LLM, Servidor de Inferencia Triton automatiza la generación de tokens y proporciona métricas de implementación como la latencia del primer token, la latencia de token a token y los tokens por segundo. Esta capacidad acelera la identificación y la implementación de la configuración de producción de LLM más eficiente.

Vea Cómo el Analizador de Modelos Triton Optimiza la Implementación de Modelos

Lea la Guía del Analizador de Rendimiento de IA Generativa

Cree Sin Esfuerzo Pipelines de IA Multimodelo

Con Servidor de Inferencia Triton, las organizaciones pueden crear conjuntos de modelos sin esfuerzo. Ofrece una herramienta de bajo código que conecta sin problemas los modelos de IA en un pipeline unificado que se puede activar con una sola solicitud de inferencia. Esto permite a las organizaciones incorporar workflows de pre y posprocesamiento, sin necesidad de codificación manual. El Servidor de Inferencia Triton también admite la programación de tareas de preprocesamiento y posprocesamiento en CPU, lo que agiliza todo el flujo de trabajo.

Más Información Sobre el Servicio de Pipelines de Modelos en Triton con Modelos de Conjunto

Implemente en Cualquier Lugar: En las Instalaciones, En el Edge o en Cualquier Nube

El Servidor de Inferencia Triton se presenta como un contenedor Docker, adecuado para su implementación en las instalaciones, en la nube o en dispositivos periféricos. Está profundamente integrado en las principales herramientas de IA de MLOps de los principales proveedores de nube, como Amazon SageMaker, Azure ML Studio, Google Vertex AI y OCI Data Science. Para las implementaciones en la nube, el Servidor de Inferencia Triton se puede poner en marcha fácilmente con una simple marca de línea de comandos, lo que minimiza el tiempo de implementación y se alinea con los estándares de gobernanza empresarial.

Implementación en Amazon SageMaker

Implementación en Google Vertex AI

Implementación en Azure ML Studio

Despliegue en Oracle Cloud

Historias de Clientes

Descubra Cómo los Líderes del Sector Están Mejorando la Implementación de Modelos con Triton

Más Historias de Clientes

Snapchat

Mejorar la Compra de Ropa con IA

Descubre cómo Snapchat mejoró la experiencia de compra de ropa y el reconocimiento óptico de caracteres con emojis con Triton para escalar, reducir costos y acelerar el tiempo de producción.

Más Información

Docusign

Aceleración de la Gestión de Acuerdos con la Plataforma de Inferencia de NVIDIA

Explore cómo Docusign está utilizando Triton y Azure para desbloquear la información de los contratos, transformar los datos de los acuerdos en información y aumentar la productividad.

Más Información

Oracle Cloud

NVIDIA Triton Acelera la Inferencia en Oracle Cloud

Descubre cómo los servicios de visión artificial y ciencia de datos de Oracle Cloud Infrastructure mejoran la velocidad de las predicciones de IA con NVIDIA Servidor de Inferencia Triton.

Más Información

Adoptantes

Principales Adoptantes en Todas las Industrias

Clientes
Integraciones de Ecosistemas

Empieze con NVIDIA Tritón

Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.

Comience a Desarrollar con Código o Contenedores

Para las personas que buscan acceder al código fuente abierto y a los contenedores de desarrollo de Triton, existen dos opciones para comenzar de forma gratuita:

Utilice Código de Fuente Abierta
Acceda al software de código abierto en GitHub con ejemplos de un extremo a otro.

Vea el Repositorio de GitHub

Descarga un Contenedor
Acceda a contenedores del Servidor de Inferencia Triton basados en Linux para x86 y Arm® en NVIDIA NGC™.

Vea los Contenedores

Pruebe Antes de Comprar

Para las empresas que quieran probar Triton antes de comprar NVIDIA AI Enterprise para producción, existen dos opciones para comenzar de forma gratuita:

Sin Infraestructura
Para aquellos que no cuentan con una infraestructura existente, NVIDIA ofrece laboratorios prácticos gratuitos a través de NVIDIA LaunchPad.

Acceda a los Laboratorios Prácticos

Con Infraestructura
Para aquellos con infraestructura existente, NVIDIA ofrece una licencia de evaluación gratuita para probar NVIDIA AI Enterprise durante 90 días.

Solicite Una Prueba de 90 días

Compare Opciones para Empezar

Recursos

Lo Último en Recursos de NVIDIA Triton

Cinco Razones Principales por las que Triton Está Simplificando la Inferencia

El Servidor de Inferencia NVIDIA Triton simplifica la implementación de modelos de IA a escala en producción, lo que permite a los equipos implementar modelos de IA entrenados desde cualquier framework desde el almacenamiento local o la plataforma en la nube en cualquier infraestructura basada en GPU o CPU.

Vea Ahora

Implemente el Pipeline de Stable Diffusion con Triton

Este video muestra la implementación del pipeline Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Usamos el Servidor de Inferencia Triton para implementar y ejecutar el pipeline.

Vea Ahora

Primeros Pasos con el Servidor de Inferencia NVIDIA Triton

El Servidor de Inferencia Triton es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Debido a sus muchas características, una pregunta natural es: ¿por dónde empiezo? Mire para descubrirlo.

Vea Ahora

Guía de Inicio Rápido

¿Es nuevo en el Servidor de Inferencia Triton y desea implementar su modelo rápidamente? Utilice esta guía de inicio rápido para comenzar su viaje con Triton.

Lea Ahora

Tutoriales

Comenzar a utilizar Triton puede generar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de Triton y encuentre guías y ejemplos que puedan ayudar a facilitar la migración.

Lea Ahora

NVIDIA LaunchPad

En laboratorios prácticos, experimente una IA rápida y escalable utilizando el Servidor de Inferencia NVIDIA Triton. Podrás desbloquear inmediatamente los beneficios de la infraestructura de computación acelerada de NVIDIA y escalar tus cargas de trabajo de IA.

Explora Ahora

Obtenga las Últimas Noticias

Lea acerca de las últimas actualizaciones y anuncios de inferencia para el Servidor de Inferencia Triton.

Vea Todos los Blogs de Triton

Explora Blogs Técnicos

Lea tutoriales técnicos sobre cómo comenzar con la inferencia.

Vea Todos los Blogs Técnicos de LLM

Sumérgete Profundamente

Obtenga sugerencias y mejores prácticas para implementar, ejecutar y escalar modelos de IA para inferencia para IA generativa, LLM, sistemas de recomendación, visión por computadora y más.

Lea Ahora

Implementación, Optimización y Evaluación Comparativa de LLM

Aprenda cómo brindar servicios a los LLM de manera eficiente utilizando el Servidor de Inferencia Triton con instrucciones paso a paso. Cubriremos cómo implementar fácilmente un LLM en múltiples backends y comparar su rendimiento, así como también cómo ajustar las configuraciones de implementación para un rendimiento óptimo.

Vea la Sesión GTC On Demand

Traslade los Casos de Uso de IA Empresarial del Desarrollo a la Producción

Conozca qué es la inferencia de IA, cómo encaja en la estrategia de implementación de IA de su empresa, desafíos clave en la implementación de casos de uso de IA de nivel empresarial, por qué se necesita una solución de inferencia de IA de pila completa para abordar estos desafíos, los componentes principales de una pila completa plataforma y cómo implementar su primera solución de inferencia de IA.

Vea la Sesión On Demand

Aproveche el Poder de las Soluciones de Inferencia de IA Listas para la Nube

Explore cómo la plataforma de inferencia de IA de NVIDIA se integra perfectamente con los principales proveedores de servicios en la nube, simplificando la implementación y acelerando el lanzamiento de casos de uso de IA impulsados por LLM.

Vea la Sesión On Demand

Oracle Cloud

NVIDIA Triton Acelera la Inferencia en Oracle Cloud

Descubra cómo los servicios de ciencia de datos y visión por computadora de Oracle Cloud Infrastructure mejoran la velocidad de las predicciones de IA con el Servidor de Inferencia NVIDIA Triton.

Más Información

ControlExpert

Revolucionando la Gestión de Reclamaciones de Automóviles

Descubra cómo ControlExpert recurrió a la IA de NVIDIA para desarrollar una solución de gestión de reclamaciones de extremo a extremo que permita a sus clientes recibir servicio las 24 hor

Más Información

Wealthsimple

Acelerando la Entrega e Inferencia del Modelo de Machine Learning

Descubra cómo Wealthsimple utilizó la plataforma de inferencia de IA de NVIDIA para reducir con éxito la duración de la implementación de su modelo de varios meses a solo 15 minutos.

Más Información

Explore More Customer Stories

Foro en Línea de Triton

Explore la comunidad en línea del Servidor de Inferencia NVIDIA Triton, donde puede explorar preguntas prácticas, aprender las mejores prácticas, interactuar con otros desarrolladores e informar errores.

Unete a la Communidad

Programa para Desarrolladores de NVIDIA

Conéctese con millones de desarrolladores con ideas afines y acceda a cientos de contenedores, modelos y SDK acelerados por GPU (todas las herramientas necesarias para crear aplicaciones con éxito con tecnología NVIDIA) a través del Programa para Desarrolladores de NVIDIA.

Únase al Programa de Desarrolladores

Acelere Su Startup

NVIDIA Inception es un programa gratuito para startups de vanguardia que ofrece acceso fundamental a soporte de comercialización, experiencia técnica, capacitación y oportunidades de financiación.

Obtenga Más Información y Presente Su Solicitud

Próximos Passos

¿Listo para Empezar?

Utilice las herramientas y tecnologías adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.

Para Desarrolladores

Explora todo lo que necesitas para empezar a desarrollar con NVIDIA Triton, incluida la documentación más reciente, tutoriales, blogs técnicos y mucho más.

Empeza a Desarrollar

Póngase en Contacto con Nosotros

Habla con un especialista en productos de NVIDIA sobre cómo pasar de piloto a producción con la seguridad, la estabilidad de la API y el soporte de NVIDIA AI Enterprise.

Contáctenos