Ir al contenido principal

Requisitos de recursos para análisis de IA basados en R

Esta página le ayuda a estimar cuánta memoria RAM debe estar disponible para el entorno de ejecución R en las soluciones de IA proporcionadas por dab.

Importante

En esta página, el conjunto de datos se refiere al resultado de un análisis ejecutado por dab Nexus. Todo ese conjunto de datos debe caber en la memoria disponible para el entorno de ejecución R.

Guia rápida

  • Utilice las matrices a continuación para estimar la memoria RAM que requiere el entorno de ejecución R para una ejecución analítica.
  • Los valores de la matriz no corresponden a la memoria RAM total de SQL Server ni a la memoria RAM de Azure SQL Managed Instance.
  • Si varios análisis se ejecutan simultáneamente, sume los requisitos de memoria R de cada uno.
  • En Azure SQL Managed Instance, R solo puede usar aproximadamente el 20% de los recursos de la instancia de forma predeterminada.

Memoria RAM necesaria para el entorno de ejecución R

Importante

Las tablas siguientes muestran la memoria RAM necesaria para el entorno de ejecución R en una ejecución analítica. No muestran la memoria RAM total del servidor ni de la instancia.

Si una celda de la matriz indica 16 GB, R requiere aproximadamente 16 GB en esa ejecución.

Esto no significa que una 16 GB SQL Server ni una Managed Instance sean suficientes.

Seleccione el intervalo de filas y el intervalo de columnas del conjunto de datos que pasa de dab Nexus al análisis. Luego, utilice la matriz de carga de trabajo correspondiente.

Cómo utilizar las tablas:

  1. En dab Nexus, abra la vista de ejecución analítica y revise cuántas filas tiene el análisis.
  2. Revise el número de columnas en Content Studio. Si no conoce el valor exacto, utilice la cantidad de columnas típica que se indica en la tabla de cargas de trabajo más abajo.
  3. En la tabla de cargas de trabajo de abajo, localice el análisis que desea ejecutar.
  4. Abra la matriz correspondiente y elija la celda donde se cruzan el rango de filas y el rango de columnas.
  5. Lea ese valor como la memoria RAM que debe estar disponible para R en esa ejecución.

Estos valores son estimaciones conservadoras basadas en el comportamiento típico de las soluciones de IA proporcionadas por dab en R. El uso máximo real también depende de los tipos de datos, la cardinalidad de columnas, objetos temporales creados por el análisis y las ejecuciones concurrentes.

Tipos de carga de trabajo y cantidad típica de columnas

Categoría de análisis de IAAnálisisCantidad típica de columnasUtilice esta matriz
DEAN / Detección de anomalíasAI_Outliers, *_OutliersNormalmente entre 15 y 20, pero configurableCargas de trabajo de IA estándar
Análisis Market BasketAI_MarketBasketAnalysis, GL_MarketBasketNormalmente entre 6 y 15, pero configurableCargas de trabajo de IA estándar
Root Cause*_RootCauseNormalmente entre 10 y 20Cargas de trabajo de IA intensiva
Pagos duplicados / AI Nota de créditoAP_DuplicatePaymentsEnhancedNormalmente alrededor de 40Cargas de trabajo de IA intensiva
Master Data AICU_DuplicatesEnhanced, CU_Outliers, VE_DuplicatesEnhanced, VE_OutliersNormalmente alrededor de 15Cargas de trabajo de IA intensiva

Cargas de trabajo de IA estándar: memoria RAM necesaria para el entorno de ejecución R

Ejemplos: AI_Outliers, *_Outliers, AI_MarketBasketAnalysis, GL_MarketBasket

Filas de entradaHasta 10 columnas11-20 columnas21-40 columnas41-60 columnas
Hasta 100k4 GB4 GB8 GB12 GB
100k-500k4 GB8 GB12 GB16 GB
500k-1M8 GB12 GB24 GB32 GB
1M-2M12 GB24 GB48 GB64 GB
2M-3M16 GB32 GB64 GB96 GB

Cargas de trabajo de IA intensiva: memoria RAM necesaria para el entorno de ejecución R

Ejemplos: *_RootCause, AP_DuplicatePaymentsEnhanced, CU_DuplicatesEnhanced, CU_Outliers, VE_DuplicatesEnhanced, VE_Outliers

Filas de entradaHasta 10 columnas11-20 columnas21-40 columnas41-60 columnas
Hasta 100k4 GB8 GB8 GB12 GB
100k-500k8 GB12 GB16 GB24 GB
500k-1M12 GB16 GB32 GB48 GB
1M-2M16 GB32 GB64 GB96 GB
2M-3M24 GB48 GB96 GB128 GB+

Si su carga de trabajo es mayor que los rangos mostrados arriba, trate los valores de la matriz como un límite inferior y dimensione el entorno con margen adicional.

SQL Server local o Azure Virtual Machine

Elija esta plataforma si desea tener el máximo control sobre la asignación de memoria.

  • Las matrices anteriores muestran cuánta memoria RAM debe quedar disponible para el entorno de ejecución R.
  • Por lo tanto, la memoria total de la máquina debe ser superior al valor mostrado en la matriz, ya que Windows y SQL Server también requieren memoria.
  • Tamaño mínimo práctico del host: 16 GB de RAM total
  • Punto de partida típico: 32 GB de RAM total
  • Cargas de trabajo grandes, extensas o concurrentes: 64 GB de RAM total o más
  • CPU mínima: 2 núcleos
  • CPU recomendada: CPU x64 moderna con buen rendimiento por núcleo

Importante: SQL Server puede consumir la mayor parte de la memoria de la máquina si no se limita correctamente. Deje suficiente memoria para el sistema operativo y R, y utilice Resource Governor si necesita controlar la memoria disponible para scripts externos. Reinicie SQL Server Launchpad después de aplicar estos cambios.

Verificar y configurar Resource Governor

Utilice estos comandos en SQL Server autogestionado si necesita ver o modificar cuánta memoria está disponible para R.

Utilice las siguientes consultas para comprobar la configuración actual:

SELECT is_enabled FROM sys.resource_governor_configuration;

SELECT name, max_memory_percent, max_cpu_percent
FROM sys.resource_governor_external_resource_pools;
  • La primera consulta indica si Resource Governor está habilitado.
  • La segunda consulta muestra los límites actuales de memoria y CPU para entornos externos como R.

Aumente el grupo externo predeterminado si R requiere más memoria:

ALTER EXTERNAL RESOURCE POOL "default"
WITH (
MAX_CPU_PERCENT = 100,
MAX_MEMORY_PERCENT = 40
);

ALTER RESOURCE GOVERNOR RECONFIGURE;

En este ejemplo, los scripts externos pueden usar hasta un 40% de la memoria disponible para SQL Server en vez del 20% predeterminado.

Utilice este ajuste junto con max server memory para que el entorno de ejecución R pueda realmente acceder a la cantidad de memoria RAM indicada en las matrices anteriores.

Azure SQL Managed Instance

Elija esta plataforma si desea un servicio de Azure SQL administrado y puede trabajar dentro de los límites de la plataforma para Machine Learning Services.

  • Recomendado: memoria optimizada, premium-series
  • Aceptable para conjuntos de datos pequeños: premium-series
  • Úselo solo para cargas de trabajo pequeñas y sensibles a coste: standard-series (Gen5)

Para estas cargas de trabajo, la memoria por vCore es más importante que la simple cantidad de vCores.

HardwareMemoria por vCoreRecomendación
Standard-series (Gen5)5.1 GBEvite para cargas de IA exigentes
Premium-series7 GBAdecuado para conjuntos de datos pequeños
Premium-series optimizada para memoria13.6 GBMejor opción para análisis que requieren mucha RAM

Importante: Azure SQL Managed Instance no admite grupos de recursos externos de Resource Governor para R. Por defecto, R solo puede usar hasta el 20% de los recursos de Managed Instance.

Los valores de la matriz siguen refiriéndose solo a la memoria R. La memoria total de la instancia debe ser mucho mayor.

Memoria total aproximada de la instancia necesaria = RAM requerida por R / 0.20

Ejemplo:

  • Si la matriz indica 16 GB, R requiere aproximadamente 16 GB.
  • Esto no significa que una Managed Instance 16 GB sea suficiente.
  • Como R solo puede usar aproximadamente 20%, 16 GB para R implica aproximadamente 80 GB de memoria total de la instancia.
Memoria RAM necesaria para RMemoria total aproximada de la instancia
4 GB20 GB
8 GB40 GB
12 GB60 GB
16 GB80 GB
24 GB120 GB
32 GB160 GB
48 GB240 GB
64 GB320 GB
96 GB480 GB
128 GB640 GB

Si experimenta errores por falta de memoria, reduzca el tamaño del conjunto de datos, amplíe la instancia o abra una incidencia de soporte de Azure sobre el límite de recursos para la extensibilidad.

Reducir el uso de memoria

Si la memoria es limitada, reduzca la cantidad de datos que dab Nexus transmite al análisis:

  • Reduzca el número de columnas en Content Studio. Menos columnas disminuyen el ancho del conjunto de datos y, por tanto, la memoria RAM requerida.
  • Use selecciones de códigos de empresa más pequeñas y periodos de tiempo más cortos al crear tareas en dab Nexus. Así reducirá la cantidad de filas que se pasan al análisis.
  • Evite la ejecución simultánea de demasiadas tareas en Nexus con estas cargas de trabajo. Las tareas concurrentes aumentan la demanda total de RAM en el entorno SQL.

Estas recomendaciones son más eficaces para conjuntos de datos grandes, tablas anchas y entornos donde se ejecutan múltiples tareas de IA al mismo tiempo.