Inference
Implemente, ejecute y escale IA para cualquier aplicación en cualquier plataforma.
Ejecute inferencias en modelos de machine learning o deep learning entrenados desde cualquier framework en cualquier procesador (GPU, CPU u otro) con el Servidor de Inferencia NVIDIA Triton™. El Servidor de Inferencia Triton es un software de código abierto que estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo. Forma parte de la plataforma de IA de NVIDIA y está disponible con NVIDIA AI Enterprise.
Triton ofrece baja latencia y alto rendimiento para la inferencia de grandes modelos de lenguaje (LLM). Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para la inferencia en producción.
Los Conjuntos de Modelos Triton le permite ejecutar cargas de trabajo de IA con varios modelos, pipelines y pasos de preprocesamiento y posprocesamiento. Permite la ejecución de diferentes partes del conjunto en la CPU o la GPU, y admite múltiples frameworks dentro del conjunto.
PyTriton permite a los desarrolladores de Python poner en marcha Triton con una sola línea de código y usarlo para servir modelos, funciones de procesamiento simples o pipelines de inferencia completas para acelerar la creación de prototipos y las pruebas.
El Analizador de Modelo reduce el tiempo necesario para encontrar la configuración óptima de implementación del modelo, como el tamaño del lote, la precisión y las instancias de ejecución simultáneas. Ayuda a seleccionar la configuración óptima para cumplir con los requisitos de latencia, rendimiento y memoria de las aplicaciones.
Implemente modelos de IA en cualquier framework principal con Servidor de Inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado y más.
Maximice el rendimiento y la utilización con el procesamiento por lotes dinámico, la ejecución simultánea, la configuración óptima y la transmisión de audio y vídeo. El Servidor de Inferencia Triton es compatible con todas las GPU de NVIDIA, CPU x86 y Arm, y AWS Inferentia.
NVIDIA AI Enterprise, incluido NVIDIA Servidor de Inferencia Triton, es una plataforma de software de IA segura y lista para la producción diseñada para acelerar el tiempo de generación de valor con soporte, seguridad y estabilidad de API.
Utilice las herramientas y tecnologías adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.
Descubra cómo los líderes del sector están impulsando la innovación con Servidor de Inferencia Triton.
El Servidor de Inferencia Triton permite a las organizaciones consolidar sus servidores de inferencia específicos del framework en una única plataforma unificada. En lugar de implementar y administrar servidores separados para cada framework de IA, actúa como un servidor único y unificado, lo que reduce los costos de servicio de inferencia. El Servidor de Inferencia Triton es compatible con todos los principales frameworks de IA, incluidos PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX y OpenVINO.
El Servidor de Inferencia Triton puede realizar barridos automatizados para probar la latencia y el rendimiento en muchas configuraciones de simultaneidad de modelos y tamaños de lotes. Esto permite a los desarrolladores identificar rápidamente la configuración más eficaz que cumpla con su acuerdo de nivel de servicio sin ningún trabajo manual. Para los modelos de LLM, Servidor de Inferencia Triton automatiza la generación de tokens y proporciona métricas de implementación como la latencia del primer token, la latencia de token a token y los tokens por segundo. Esta capacidad acelera la identificación y la implementación de la configuración de producción de LLM más eficiente.
Con Servidor de Inferencia Triton, las organizaciones pueden crear conjuntos de modelos sin esfuerzo. Ofrece una herramienta de bajo código que conecta sin problemas los modelos de IA en un pipeline unificado que se puede activar con una sola solicitud de inferencia. Esto permite a las organizaciones incorporar workflows de pre y posprocesamiento, sin necesidad de codificación manual. El Servidor de Inferencia Triton también admite la programación de tareas de preprocesamiento y posprocesamiento en CPU, lo que agiliza todo el flujo de trabajo.
El Servidor de Inferencia Triton se presenta como un contenedor Docker, adecuado para su implementación en las instalaciones, en la nube o en dispositivos periféricos. Está profundamente integrado en las principales herramientas de IA de MLOps de los principales proveedores de nube, como Amazon SageMaker, Azure ML Studio, Google Vertex AI y OCI Data Science. Para las implementaciones en la nube, el Servidor de Inferencia Triton se puede poner en marcha fácilmente con una simple marca de línea de comandos, lo que minimiza el tiempo de implementación y se alinea con los estándares de gobernanza empresarial.
Utilice las herramientas y tecnologías adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.
Explora todo lo que necesitas para empezar a desarrollar con NVIDIA Triton, incluida la documentación más reciente, tutoriales, blogs técnicos y mucho más.
Habla con un especialista en productos de NVIDIA sobre cómo pasar de piloto a producción con la seguridad, la estabilidad de la API y el soporte de NVIDIA AI Enterprise.