Create Experiment

curl -X POST https://api.playgent.com/v1/experiments \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "System Prompt v2 Test",
    "agent_id": "agent_abc123",
    "variants": [
      {
        "name": "control",
        "config": { "system_prompt": "You are a helpful agent..." }
      },
      {
        "name": "treatment",
        "config": { "system_prompt": "You are a customer support agent for Acme Corp..." }
      }
    ],
    "test_case_ids": ["tc_1", "tc_2", "tc_3"],
    "metrics": ["relevance", "faithfulness", "latency_ms"],
    "config": {
      "runs_per_variant": 10,
      "randomize": true
    }
  }'

{
  "experiment_id": "exp_yza567",
  "status": "completed",
  "results": {
    "control": {
      "runs": 10,
      "pass_rate": 0.70,
      "avg_scores": { "relevance": 0.85, "faithfulness": 0.82 },
      "avg_latency_ms": 2340
    },
    "treatment": {
      "runs": 10,
      "pass_rate": 0.90,
      "avg_scores": { "relevance": 0.91, "faithfulness": 0.94 },
      "avg_latency_ms": 2180
    }
  },
  "statistical_analysis": {
    "winner": "treatment",
    "confidence": 0.95,
    "p_value": 0.023,
    "effect_size": {
      "pass_rate": "+28.6%",
      "faithfulness": "+14.6%"
    }
  },
  "recommendation": "Treatment variant shows statistically significant improvement. Recommend deploying."
}

POST

experiments

curl -X POST https://api.playgent.com/v1/experiments \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "System Prompt v2 Test",
    "agent_id": "agent_abc123",
    "variants": [
      {
        "name": "control",
        "config": { "system_prompt": "You are a helpful agent..." }
      },
      {
        "name": "treatment",
        "config": { "system_prompt": "You are a customer support agent for Acme Corp..." }
      }
    ],
    "test_case_ids": ["tc_1", "tc_2", "tc_3"],
    "metrics": ["relevance", "faithfulness", "latency_ms"],
    "config": {
      "runs_per_variant": 10,
      "randomize": true
    }
  }'

{
  "experiment_id": "exp_yza567",
  "status": "completed",
  "results": {
    "control": {
      "runs": 10,
      "pass_rate": 0.70,
      "avg_scores": { "relevance": 0.85, "faithfulness": 0.82 },
      "avg_latency_ms": 2340
    },
    "treatment": {
      "runs": 10,
      "pass_rate": 0.90,
      "avg_scores": { "relevance": 0.91, "faithfulness": 0.94 },
      "avg_latency_ms": 2180
    }
  },
  "statistical_analysis": {
    "winner": "treatment",
    "confidence": 0.95,
    "p_value": 0.023,
    "effect_size": {
      "pass_rate": "+28.6%",
      "faithfulness": "+14.6%"
    }
  },
  "recommendation": "Treatment variant shows statistically significant improvement. Recommend deploying."
}

Create an A/B experiment to compare different agent configurations with statistical analysis and recommendations.

string

required

Experiment name

string

required

Base agent for the experiment

array

required

Experiment variants (minimum 2)

Show variant object

string

required

Variant name (e.g., “control”, “treatment”)

object

required

Variant configuration

Show properties

string

Override system prompt

string

Override model

number

Override temperature

array

required

Test cases to run in the experiment

array

required

Metrics to measure (e.g., “relevance”, “faithfulness”, “latency_ms”)

object

Experiment configuration

Show properties

integer

Runs per variant for statistical power (default: 10)

boolean

Randomize run order (default: true)

string

required

Experiment identifier

string

required

Status: pending, running, completed

object

Results per variant (when completed)

Show variant result

integer

Number of runs

number

Pass rate

object

Average scores per metric

integer

Average latency

object

Statistical analysis (when completed)

Show properties

string

Winning variant

number

Confidence level (0-1)

number

P-value

object

Effect sizes per metric

string

Human-readable recommendation

curl -X POST https://api.playgent.com/v1/experiments \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "System Prompt v2 Test",
    "agent_id": "agent_abc123",
    "variants": [
      {
        "name": "control",
        "config": { "system_prompt": "You are a helpful agent..." }
      },
      {
        "name": "treatment",
        "config": { "system_prompt": "You are a customer support agent for Acme Corp..." }
      }
    ],
    "test_case_ids": ["tc_1", "tc_2", "tc_3"],
    "metrics": ["relevance", "faithfulness", "latency_ms"],
    "config": {
      "runs_per_variant": 10,
      "randomize": true
    }
  }'

{
  "experiment_id": "exp_yza567",
  "status": "completed",
  "results": {
    "control": {
      "runs": 10,
      "pass_rate": 0.70,
      "avg_scores": { "relevance": 0.85, "faithfulness": 0.82 },
      "avg_latency_ms": 2340
    },
    "treatment": {
      "runs": 10,
      "pass_rate": 0.90,
      "avg_scores": { "relevance": 0.91, "faithfulness": 0.94 },
      "avg_latency_ms": 2180
    }
  },
  "statistical_analysis": {
    "winner": "treatment",
    "confidence": 0.95,
    "p_value": 0.023,
    "effect_size": {
      "pass_rate": "+28.6%",
      "faithfulness": "+14.6%"
    }
  },
  "recommendation": "Treatment variant shows statistically significant improvement. Recommend deploying."
}

Optimize Prompt Create Webhook

Overview

Agents

Test Cases

Test Runs

Tracing

Evaluation

Optimization

Webhooks

Analytics

Create Experiment