Run detail

2a6b854819defbe0

Dataset

beir-v1.0.0-trec-covid

Method

qa_expand

Model

gpt-4.1

Retriever

SPLADE++ (learned_sparse)

params_hash

866d9a4b

Queries

Metrics

ndcg_cut_10	0.6941
recall_100	0.1152

Reproduce this run

Three steps: (1) reformulate the queries with QueryGym's example pipeline, (2) run retrieval with Pyserini, (3) evaluate with trec_eval.

1. reformulate

python examples/querygym_pyserini/pipeline.py \
    --dataset beir-v1.0.0-trec-covid \
    --method qa_expand \
    --model openai/gpt-4.1 \
    --steps reformulate \
    --temperature 1 \
    --max-tokens 128 \
    --method-params '{"num_examples":4,"train_split":"train"}' \
    --output-dir outputs/reproduce

2. retrieve (SPLADE++)

python -m pyserini.search.lucene \
  --threads 16 --batch-size 128 \
  --index beir-v1.0.0-trec-covid.splade-pp-ed \
  --topics outputs/reproduce/queries/reformulated_queries.tsv \
  --encoder naver/splade-cocondenser-ensembledistil \
  --output run.txt \
  --hits 1000 --impact

3. evaluate

python -m pyserini.eval.trec_eval -c -m ndcg.cut.10 -m recall.100 \
  beir-v1.0.0-trec-covid-test run.txt

Artifacts

Config

config.json

{
  "method_params": {
    "num_examples": 4,
    "train_split": "train"
  },
  "llm_config": {
    "temperature": 1,
    "max_tokens": 128
  },
  "dataset_config": {
    "topics": "beir-v1.0.0-trec-covid-test",
    "index": "beir-v1.0.0-trec-covid.flat",
    "num_queries": 50
  },
  "retrieval": {
    "retriever_id": "splade-pp",
    "paradigm": "learned_sparse",
    "params": {
      "model": "naver/splade-cocondenser-ensembledistil"
    }
  }
}