Resumen:
|
[EN] AI systems are usually evaluated with a variety of benchmarks to determine their
performance for specific tasks, using a single metric which provides a simplistic image
of their capabilities. However, this procedure ...[+]
[EN] AI systems are usually evaluated with a variety of benchmarks to determine their
performance for specific tasks, using a single metric which provides a simplistic image
of their capabilities. However, this procedure is insufficient when we want to evaluate
and infer their capabilities in more general settings. In this project, we will take performance
data from some of the agents that were developed in the DARPA s MCS project
and infer their capability profiles through Bayesian triangulation provided by the Measurement
Layouts methodology. These are, semantically-rich hierarchical Bayesian networks
(HBN) that are inferred using the probabilistic programming engine PyMC, which
is available in Python. Using extensive data of several agents that were tasked to solve a
variety of common-sense problems, we can extract their capability profiles and compare
them with each other just by using Bayesian triangulation. We analyse the predictive and
explanatory power of the inferred Bayesian models to evaluate AI over other procedures
like just estimating the aggregate accuracy of the agents with massive benchmarks.
[-]
[CA] Els sistemes de IA són generalment avaluats per a entendre el seu rendiment emprant una varietat de ’benchmarks’, servint-se d’una única mètrica per a descriure’l, la
qual cosa ens proveïx una imatge molt simple de ...[+]
[CA] Els sistemes de IA són generalment avaluats per a entendre el seu rendiment emprant una varietat de ’benchmarks’, servint-se d’una única mètrica per a descriure’l, la
qual cosa ens proveïx una imatge molt simple de les seues capacitats. No obstant això, esta metodologia no és adequada quan volem entendre el seu rendiment en entorns d’una
naturalesa més genèrica. En aquest projecte, prendrem dades de rendiment d’alguns dels
agents desenvolupats en el projecte MCS de DARPA i inferirem els seus perfils de capacitat mitjançant la triangulació bayesiana proporcionada per la metodologia Measurement
Layouts. Estos, al cap i a la fi són xarxes bayesianes semànticament riques inferides mitjançant el motor probabilístic oferit en la llibreria PyMC, la qual es troba disponible en
Python. En el projecte busquem extraure perfils de capacitat mitjançant dades exhaustives provinents d’agents dissenyats amb l’objectiu de mostrar capacitats de ’sentit comú’.
Tot això mitjançant inferència bayesiana. Igualment analitzarem el poder predictiu i explicatiu d’esta tècnica, comparant-la així amb mètodes més tradicionals com la simple
obtenció de mètriques de precisió a partir de ’benchmarks’ massius, o la simple predicció
basada en mètriques agregades de rendiment.
[-]
[ES] Los sistemas de IA son generalmente evaluados para entender su rendimiento empleando una variedad de ’benchmarks’, sirviéndose de una única métrica para describirlo, lo cual nos provee una imagen muy simple de sus ...[+]
[ES] Los sistemas de IA son generalmente evaluados para entender su rendimiento empleando una variedad de ’benchmarks’, sirviéndose de una única métrica para describirlo, lo cual nos provee una imagen muy simple de sus capacidades. Sin embargo, esta
metodología no es adecuada cuando queremos entender su rendimiento en entornos de
una naturaleza más genérica.En este proyecto, tomaremos datos de rendimiento de algunos de los agentes desarrollados en el proyecto MCS de DARPA e inferiremos sus
perfiles de capacidad mediante la triangulación bayesiana proporcionada por la metodología Measurement Layouts. Éstos, al fin y al cabo son redes bayesianas semánticamente
ricas inferidas mediante el motor probabilístico ofrecido en la librería PyMC, la cual se
encuentra disponible en Python. En el proyecto buscamos extraer perfiles de capacidad
mediante datos exhaustivos provenientes de agentes diseñados con el objetivo de mostrar capacidades de ’sentido común’. Todo ello mediante inferencia bayesiana. Igualmente analizaremos el poder predictivo y explicativo de esta técnica, comparándola así con
métodos más tradicionales como la simple obtención de métricas de precisión a partir
de ’benchmarks’ masivos, o la simple predicción basada en métricas agregadas de rendimiento.
[-]
|