STEM/Coding Experts Needed: Build Research Tasks for AI Evaluation

Zleceniodawca

Kamil Lee

Opis

I need help building realistic, terminal-based STEM research tasks used to evaluate frontier AI models (GPT, Gemini, etc.).

What you'll build:

A self-contained coding task that looks like real research work (analyzing datasets, running simulations, validating hypotheses, comparing methods). Not a textbook problem.

Each submission must include:

instruction.md (workflow, inputs, outputs, success criteria)

Reproducible Docker environment with data

Oracle solution (solve.sh) that fully solves the task

Deterministic tests for verification

task.toml metadata

All packaged into one zip

Quality bar:

Multi-step, research-grade workflow

Hard enough that frontier models fail more than 80% of the time

Oracle passes local tests 3 out of 3 times

Objectively verifiable outputs

No LLM-generated content allowed

Who's a fit:

STEM background (biology, chemistry, physics, ML, data science, etc.) with strong Python and Docker skills.

Payout: $100 per accepted submission.

Opublikowano

5 dni temu

Kategoria

Projekty IT

Prawa autorskie

Decyzja freelancera

Wysłane oferty (9)

aplikacje mobilne

aws

javascript

+ 6 więcej

bootstrap

css

html5

+ 7 więcej

angular

aws

css

+ 16 więcej

analiza danych

API

aplikacje webowe

+ 14 więcej

Budżet

100,00 USD

Prawa autorskie

Decyzja freelancera

Ważne przez

30 dni

Dodaj ofertę Zapytaj o szczegóły

Michael 0 umów

Building RLHF sandbox
Build a sandbox with dockerfile where coding AI agents will be trained with proper rubrics

Do negocjacji

7 ofert

Ważne przez 30 dni
House of Technology 0 umów

Szukam osoby do pozyskiwania zleceń / leadów dla dev studia — długoterminowo
Hej Prowadzę własne dev studio — NextGenCode (nextgencode.dev). Robię fullstack web, AI...

Do negocjacji

7 ofert

Ważne przez 4 dni
natb 0 umów

Full Stack Web Developer
Tryb pracy: Zdalna Poziom: Regular / Senior Tworzymy strony, sklepy, nowoczesne platformy...

Do negocjacji

26 ofert

Ważne przez 27 dni
skaner 0 umów

Airtable Consultancy
# Request for Quotation — Airtable consultancy ## About us We are a rental management company...

Do negocjacji

20 ofert

Ważne przez 25 dni
Mikołaj 0 umów

Współpraca przy wdrożeniach AI oraz Stronach internetowych
Hej, mam 18 lat i prowadzę agencję zajmującą się automatyzacjami AI i Stronami internetowymi dla...

1234,00 PLN

6 ofert

Ważne przez 24 dni
Michał Ołowski 0 umów

Wdrożenie Home Assistant - system zdalnego odczytu liczników (Bytom, on-site + zdalnie)
Szukam integratora Home Assistant do wdrożenia systemu zdalnego odczytu liczników w 10...

1800,00 PLN

11 ofert

Ważne przez 24 dni
szkola-jezykowa 0 umów

Aplikacja dla szkoły językowej
Szukam wykonawcy do stworzenia portalu kursanta dla szkoły językowej. Ma on uporządkować pracę...

Do negocjacji

66 ofert

Ważne przez 24 dni
Unfair Advantage 0 umów

Automatyzacje AI — Make / n8n / Zapier, chatbot na stronę, integracje CRM i mail
Cześć, Prowadzę firmę usługową, która szybko rośnie i tonie w ręcznej robocie wokół obsługi...

Do negocjacji

59 ofert

Ważne przez 7 dni
Sebastian Policz 0 umów

Automatyzacje Make.com + BaseLinker (Stała współpraca B2B) - TYLKO CERTYFIKAT BASE
Cześć, Prowadzę markę technologiczną Flow E-com, pod którą wdrażamy optymalizacje procesów dla...

Do negocjacji

18 ofert

Ważne przez 4 dni
asianshop 0 umów

Wdrożenie ERP Microsoft Dynamics 365 Business Central
Obejmuje: modul ERP Business Central, podstawowa inwentaryzacje (stany magazynowe per...

Do negocjacji

17 ofert

Ważne przez 20 dni