← Eksperiment

P1-rapporten forklart — Fra rotasjonskurver til svak gravitasjonslinsing: hvordan EFTs gjennomsnittlige gravitasjonsrespons kan testes

En publikumsrettet forklaring basert på «P1_RC_GGL: en streng lukkingstest av galaksedynamikk og svak gravitasjonslinsing (v1.1)»

Opprinnelig rapport av Guanglin Tu | Versjonsgrunnlag: P1 v1.1 | Formål: offentlig forklaringsutkast / ikke en fagfellevurdert artikkel
Relaterte arkiver: Rapport DOI 10.5281/zenodo.18526334 | Reproduksjonspakke DOI 10.5281/zenodo.18526286

Lesemerknad

Dette er en forklaringsversjon, ikke en ny akademisk rapport. Den bygger på den opprinnelige P1-rapporten, beholder de viktigste figurene og tabellene, og legger til lettfattelige forklaringer av hva hvert sentrale trinn betyr.

Denne teksten forklarer bare konklusjonene P1 trekker innenfor sine fastsatte datasett, parameterregnskap og statistiske protokoll: I den felles testen av galaksers rotasjonskurver (RC) og galakse–galakse-svak gravitasjonslinsing (GGL) gjør EFTs modell for gjennomsnittlig gravitasjonsrespons det klart bedre enn den minimale DM_RAZOR-basislinjen som testes her.

Denne teksten tolker ikke P1 som en påstand om at «mørk materie er tilbakevist». P1 er bare første trinn i P-seriens eksperimenter. Den tester ett observerbart lag i EFT – det «gjennomsnittlige gravitasjonsgrunnlaget» – ikke hele innholdet i den komplette EFT-rammen.

0 | Forstå P1 på fem minutter: Hva er det denne testen egentlig gjør?

Du kan tenke på P1 som en test av konsistens på tvers av sonder. Den spør ikke bare om en modell kan tilpasse ett datasett. I stedet legger den to helt forskjellige gravitasjonsavlesninger på samme revisjonsbenk: rotasjonskurver (RC) leser dynamikken inne i galakseskiver, mens galakse–galakse-svak gravitasjonslinsing (GGL) leser den projiserte gravitasjonsresponsen på større skalaer.

P1 i én setning

P1 hever sammenligningskravet fra «passer modellen én sonde godt?» til «lukker den på tvers av sonder?». En modell har større sannsynlighet for å ha fanget en gravitasjonsstruktur som RC og GGL deler, bare dersom den gjør det godt under riktig kobling og signalet faller sammen når koblingen stokkes om.

Tabell 0 | P1s kjerneverdier og hvordan de kan leses

Metrikk

Lesning i P1 / P1A

Betydning for vanlige lesere

Felles tilpasning ΔlogL_total

I hovedsammenligningen i teksten ligger EFT 1155–1337 over DM_RAZOR

Den samlede poengforskjellen for de to datasettene; jo større verdi, desto bedre samlet forklaring.

Lukkingsstyrke ΔlogL_closure

I hovedsammenligningen er EFT 172–281, mens DM_RAZOR er 127

Evnen til å forutsi GGL etter at modellen bare er utledet fra RC; jo større verdi, desto sterkere selvkonsistens på tvers av sonder.

Negativ kontroll med shuffle

Etter stokking av RC-bin→GGL-bin faller EFTs lukkingssignal til 6–23

Når riktig korrespondanse brytes, bør fordelen forsvinne; jo skarpere fallet er, desto bedre utelukkes et falskt signal.

P1A flerfoldig DM-stresstest

DM 7+1 + DM_STD, med EFT_BIN beholdt som sammenligning

P1A ser ikke bare på den minimale DM_RAZOR-basislinjen. Den legger flere lavdimensjonale, reviderbare DM-forsterkningsgrener inn i samme lukkingsprotokoll.


1 | Hvorfor gjøre P1? Hvor sitter galakseskala-kosmologien fast?

Problemer på galakseskala har vært vanskelige lenge fordi «behovet for ekstra gravitasjon/masse» ikke bare er et rotasjonskurvefenomen. Mange observasjoner viser en tett sammenheng mellom synlig baryonisk materie i galakser og de faktiske dynamiske avlesningene og linseavlesningene. For mørk-materie-ruten betyr dette at mørke haloer, baryonisk tilbakekobling, galaksedannelseshistorie og observasjonelle systematikker må koordineres svært presist. For gravitasjonsruter uten mørk materie betyr det at en modell ikke bare kan se god ut på RC; den må også overleve svak gravitasjonslinsing, populasjonsskaleringslover og negative kontroller.

Det er motivasjonen for P1. Den starter ikke fra «mørk materie er feil» eller «EFT må være riktig». Den tar én testbar påstand inn til revisjon: Kan EFTs gjennomsnittlige gravitasjonsrespons etterlate et reproduserbart og overførbart signal i RC→GGL-lukking på tvers av sonder?

Ekstern litteraturbakgrunn: Hvorfor er RC+GGL-vinduet viktig?

Den radielle akselerasjonsrelasjonen (RAR), foreslått av McGaugh, Lelli og Schombert i 2016, viser en tett sammenheng med liten spredning mellom den observerte akselerasjonen som spores av rotasjonskurver, og akselerasjonen som forutsies fra baryonisk materie. Dette gjør «koblingen mellom baryoner og gravitasjonsrespons» uunngåelig for teori på galakseskala.

Brouwer mfl. (2021) brukte KiDS-1000 svak gravitasjonslinsing til å utvide RAR til lavere akselerasjoner og større radier, og sammenlignet MOND, Verlindes fremvoksende gravitasjon og LambdaCDM-modeller. De påpekte også at forskjeller mellom tidlige og sene galaksetyper, gasshaloer og galakse–halo-koblingen fortsatt er nøkkelspørsmål.

Mistele mfl. (2024) brukte videre svak gravitasjonslinsing til å utlede sirkulærhastighetskurver for isolerte galakser, og rapporterte ingen klar nedgang ut til flere hundre kpc og til og med omtrent 1 Mpc, i samsvar med BTFR. Dette viser at svak gravitasjonslinsing er i ferd med å bli en viktig ekstern avlesning for å teste gravitasjonsrespons på galakseskala.

Derfor ligger verdien av P1 ikke i at den er «den første som diskuterer RC og GGL sammen». Verdien ligger i at den plasserer dem i en reviderbar protokoll bygget på fast kobling, parameterregnskap, RC-only→GGL-lukking, negative shuffle-kontroller og P1A flerfoldige DM-stresstester.


2 | Hva betyr EFT i P1? Det er ikke Effective Field Theory

Her viser EFT til Energy Filament Theory (Energi-tråd-teori, EFT), ikke til Effective Field Theory, som er vanlig i fysikk. I P1s tekniske rapport brukes EFT med tilbakeholdenhet: den deltar ikke i sammenligningen som en fullstendig endelig teori, men komprimeres først til en observerbar, tilpasningsklar og falsifiserbar parameterisering av «gjennomsnittlig gravitasjonsrespons».

Sagt enkelt begynner P1 ikke med å diskutere alle mikroskopiske kilder til ekstra gravitasjon, og den forsøker heller ikke å bevise hele EFT-rammeverket på én gang. Den stiller et smalere og hardere spørsmål: Dersom en form for gjennomsnittlig ekstra gravitasjonsrespons finnes på galakseskala, kan den først forklare RC og deretter overføres til å forutsi GGL?

Hvilken del av EFT tester P1?

P1 tester det «gjennomsnittlige gravitasjonsgrunnlaget» (mean gravity floor): et statistisk stabilt gjennomsnittsbidrag som kan overføres på tvers av utvalg.

P1 behandler foreløpig ikke «støygrunnlaget» (stochastic / noise floor): altså tilfeldige ledd, individuelle forskjeller eller ekstra spredning som mer mikroskopiske fluktuasjonsprosesser kan gi.

P1 diskuterer heller ikke den komplette mikroskopiske mekanismen, abundans, levetid eller globale kosmologiske begrensninger. Den er første trinn i P-seriens eksperimenter, ikke en endelig dom.


3 | P1-seriens plan: Hvorfor starte med «gjennomsnittsgrunnlaget»?

P-serien kan forstås som EFTs observasjonelle gjenfinningsprogram. Den legger ikke frem alle påstander på én gang, men isolerer først den delen som lettest kan testes med offentlige data. P1s strategi er å teste gjennomsnittsleddet først: Hvis gjennomsnittlig gravitasjonsrespons ikke engang kan lukke fra RC til GGL, mangler man et skikkelig inngangspunkt for å diskutere mer komplekse støyledd eller mikroskopiske mekanismer.

Tabell 1 | P-seriens lagdelte plassering

Lag

Spørsmål

Plass i P1

P1

Kan gjennomsnittlig gravitasjonsrespons lukke i RC→GGL?

Hovedspørsmålet i denne rapporten

P1A

Hvis DM-siden styrkes, forblir konklusjonen stabil?

Vedlegg B: DM 7+1 + DM_STD-stresstest

Senere P-seriearbeid

Kan protokollen utvides til mer data, flere sonder og mer kompleks systematikk?

Retning for videre arbeid

Dypere spørsmål

Hvordan kobles gjennomsnittsleddet, støyleddet og den mikroskopiske mekanismen sammen?

Utenfor P1s konklusjonsområde


4 | Hva er dataene? Hva forteller RC og GGL oss?


4.1 Rotasjonskurver (RC): «hastighetsmåleren» i galakseskiven

Rotasjonskurver registrerer hvor raskt gass og stjerner går i bane rundt sentrum av en galakse ved ulike radier. Jo raskere rotasjonen er, desto sterkere sentripetalkraft trengs ved den radiusen – og dermed desto sterkere er den effektive gravitasjonen. P1 bruker SPARC-databasen; etter forbehandling inngår 104 galakser og 2295 hastighetsdatapunkter, fordelt på 20 RC-bin.


4.2 Svak gravitasjonslinsing (GGL): en «gravitasjonsvekt» på større skala

Galakse–galakse-svak gravitasjonslinsing måler hvordan forgrunnsgalakser svakt bøyer lyset fra bakgrunnsgalakser. Den tilsvarer projisert gravitasjonsrespons på større, haloskala radier og avhenger ikke av detaljene i gassdynamikken inne i galaksen. P1 bruker offentlige GGL-data fra KiDS-1000 / Brouwer mfl. (2021): 4 stjernemasse-bin, 15 radielle punkter per bin, til sammen 60 datapunkter, med full kovarians.


4.3 Fast kobling: hvorfor 20 RC-bin → 4 GGL-bin er avgjørende

P1 kobler de 20 RC-binene til de 4 GGL-binene gjennom en fast regel: Hvert GGL-bin tilsvarer 5 RC-bin, kombinert med et galaksetallsvektet gjennomsnitt. Denne koblingen holdes uendret for alle modeller og fungerer som en hard begrensning for lukkingsprøven og en rettferdig sammenligning.

Hvorfor kan koblingen ikke justeres i etterkant?

Hvis man etterpå fikk velge «hvilke RC-bin som tilsvarer hvilke GGL-bin», kunne en modell skape lukking ved å omorganisere korrespondansen. P1 låser 20→4-koblingen på forhånd og bryter den bevisst med en negativ shuffle-kontroll nettopp for å vurdere om lukkingssignalet virkelig avhenger av en fysisk rimelig korrespondanse.


5 | Modeller og metode: Hva sammenligner P1 egentlig?


5.1 EFT-siden: lavdimensjonal gjennomsnittlig gravitasjonsrespons

På EFT-siden brukes et lavdimensjonalt ekstra hastighetsledd til å beskrive gjennomsnittlig gravitasjonsrespons. Formen på ekstra-leddet styres av en dimensjonsløs kjernefunksjon f(r/ℓ), der ℓ er den globale skalaen, og amplituden gis per RC-bin. Ulike kjernefunksjoner representerer ulike starthelninger, overgangshastigheter og langtrekkende haler, og brukes i robusthetsstresstester.


5.2 DM-siden: hovedsammenligningen og vedlegg P1A må leses hver for seg

I hovedsammenligningen er DM_RAZOR en minimert, reviderbar NFW-basislinje: Den bruker en fast c–M-relasjon og inneholder ikke halo-til-halo-spredning, adiabatisk kontraksjon, tilbakekoblingskjerner, ikke-sfærisitet eller miljøledd. Fordelen med dette designet er kontrollerte frihetsgrader og enkel reproduserbarhet; svakheten er at det ikke kan representere alle LambdaCDM- eller mørk-materie-halomodeller.

Derfor gjøres DM-siden i vedlegg B (P1A) om til et sett med «standardiserte stresstester». Uten å endre den delte koblingen eller lukkingsprotokollen legger P1A gradvis til lavdimensjonale forsterkningsgrener som SCAT, AC, FB, HIER_CMSCAT, CORE1P, lensing m og den kombinerte basislinjen DM_STD, samtidig som EFT_BIN beholdes som sammenligning. Kort sagt: P1A sammenligner ikke bare med én minimal DM-basislinje, men måler et sett vanlige, reviderbare DM-mekanismer med samme «lukkingslinjal».

Den presise konklusjonsrammen som brukes her

Hovedtekst: EFT-serien gjør det markant bedre enn minimal DM_RAZOR i hovedsammenligningen.

Vedlegg B / P1A: Under flere lavdimensjonale, reviderbare DM-forsterkningsgrener og DM_STD-stresstesten kan enkelte DM-felles-tilpasninger forbedres, men lukkingsstyrken fjerner ikke EFT_BINs fordel.

Den tryggeste formuleringen er derfor: Innenfor dataene, koblingen, parameterregnskapet og lukkingsprotokollen i P1/P1A viser EFTs gjennomsnittlige gravitasjonsrespons sterkere konsistens på tvers av data; dette er ikke det samme som å utelukke alle mørk-materie-modeller.


5.3 Lukkingstest: P1s viktigste eksperimentelle grammatikk

1. Tilpass bare med RC og få et sett RC-only posterior-prøver.

2. Ikke retun med GGL; bruk RC-posterioren direkte til å forutsi GGL.

3. Bruk full kovarians til å beregne GGL-prediksjonsskåren under riktig kobling, logL_true.

4. Permuter RC-bin→GGL-bin-korrespondansen tilfeldig for å beregne den negative kontrollskåren, logL_perm.

5. Trekk de to fra hverandre for å få lukkingsstyrken: ΔlogL_closure = <logL_true> − <logL_perm>.

Folkelig analogi

En lukkingstest er som en ny prøve på tvers av eksamensrom. Modellen lærer først mønstre i RC-rommet, og svarer deretter i GGL-rommet. Hvis den virkelig har lært en delt regel, ikke et lokalt knep, bør den fortsatt svare godt når rommet byttes; hvis korrespondansen mellom rommene bevisst stokkes om, bør fordelen forsvinne.


5.4 Før du leser de tekniske tabellene: fire innganger

Tabell 5.4 | Lesesti for neste gruppe brede tekniske tabeller

Inngang

Hva du skal se på

Hvorfor det er viktig

Tabell S1a

Samlet RC+GGL-fellestilpasningsskår

Svarer på: «Når de to datasettene ses samlet, hvem gir den sterkeste overordnede forklaringen?»

Tabell S1b

Lukkingsstyrke, shuffle og robusthetsskanninger

Svarer på: «Kan det som ble lært fra RC, overføres til GGL?»

Tabell B0

Definisjoner av flere DM-forsterkningsgrener i P1A

Hindrer at P1 reduseres til «bare en sammenligning med minimal DM_RAZOR».

Tabell B1

P1A resultattavle for lukking og felles tilpasning

Kontrollerer om lukkingsfordelen forsvinner når DM styrkes.

Merknad om layout

Fra neste side brukes liggende sider for å bevare de brede tabellene fra originalrapporten fullt ut, uten å fjerne kolonner eller komprimere dem til de blir uleselige. Den fortolkende teksten har allerede gitt en lesemåte for vanlige lesere; de liggende tekniske tabellene er for dem som vil kontrollere tall og modellgrener.

Figur 0.1 | P1s lukkingsarbeidsflyt i én figur

Merknad: Den øvre kjeden er «lukkingstesten» (tilpass bare RC → bruk RC-posterioren til å forutsi GGL); den nedre kjeden er «felles tilpasning» (RC+GGL skåres sammen). Til høyre sammenlignes ekte kobling med stokket kobling, noe som gir lukkingsstyrken ΔlogL.


6 | Viktige tekniske tabeller: hovedtabeller fra originalrapporten og P1A-tabeller

Tabell S1a | Hovedmetrikker for felles tilpasning (RC+GGL, Strict; beholdt fra originalrapporten)

Modell(workspace)

W-kjerne

k

Felles logL_total(best)

ΔlogL_total vs DM

AICc

BIC

DM_RAZOR

none

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

none

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponential

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabell S1b | Lukkings- og robusthetsmetrikker (Strict; beholdt fra originalrapporten)

Modell(workspace)

Lukking ΔlogL(true-perm)

ΔlogL etter negativ-kontroll-shuffle

σ_int-skanning ΔlogL-område

R_min-skanning ΔlogL-område

cov-shrink-skanning ΔlogL-område

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308

Tabell B0 | Definisjoner av DM-forsterkningsgrener i P1A (beholdt fra originalrapportens vedlegg B)

Workspace

dm_model

Nye parametere (≤1)

Fysisk motivasjon (kjerne)

Implementeringsprinsipp (revisjonsvennlig)

DM_RAZOR

NFW (fixed c–M, no scatter)

Minimal, reviderbar LambdaCDM-halo-basislinje; brukes som streng kontroll mot EFT

Delt kobling fast; parameterregnskap strengt; brukes bare som basislinje for relativ sammenligning

DM_RAZOR_SCAT

NFW + c–M scatter (legacy)

σ_logc

c–M-relasjonen har spredning; approksimeres med én parameter for log-normal scatter

≤1 ny parameter; fortsatt delt kobling; lukkingsgevinst brukes som akseptkriterium

DM_RAZOR_AC

NFW + Adiabatic Contraction (legacy)

α_AC

Baryoninnfall kan gi adiabatisk halokontraksjon; approksimeres med én styrkeparameter

≤1 ny parameter; kobling endres ikke; AICc/BIC-endringer og lukkingsgevinst rapporteres

DM_RAZOR_FB

NFW + tilbakekobling core (legacy)

log r_core

Tilbakekobling kan danne en kjerne i indre region; approksimeres med én kjerne-skala-parameter

≤1 ny parameter; lukking/negativ kontroll med samme definisjonsramme; RC-only-forbedring er ikke eneste mål

DM_HIER_CMSCAT

Hierarchical c–M scatter + prior

σ_logc (hier)

Mer standard hierarkisering av c_i∼logN(c(M_i),σ_logc); påvirker samtidig RC- og GGL-fellesposterior

Eksplisitt prior; latent c_i marginaliseres; fortsatt lavdimensjonalt og reviderbart

DM_CORE1P

1‑parameter core proxy (coreNFW/DC14‑inspired)

log r_core

Bruker en én-parameter kjerneproxy for hovedvirkningen av baryonisk tilbakekobling og unngår høy-dimensjonale stjernedannelsesdetaljer

Henviser til standardlitteratur; ≤1 ny parameter; bundet til lukkingstesten

DM_RAZOR_M

NFW + lensing shear‑calibration nuisance

m_shear (GGL)

Absorberer en viktig systematisk usikkerhet i svak-linse-siden som effektiv parameter, for å redusere risikoen for å tolke systematikk som fysikk

Nuisance føres eksplisitt i regnskapet; får ikke påvirke RC bakover; resultater vurderes hovedsakelig etter robust lukking

DM_STD

Standardized DM basislinje (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Samler de tre vanligste innvendingene i én fortsatt lavdimensjonal standard basislinje

Parameterregnskap og informasjonskriterier rapporteres sammen; lukking er hovedmetrikken; brukes som sterkeste DM-forsvarskontroll

Tabell B1 | P1A-resultattavle (større er bedre; beholdt fra originalrapportens vedlegg B)

Modellgren (workspace)

Δk

RC-only best logL_RC (Δ)

Lukkingsstyrke ΔlogL_closure (Δ)

Joint best logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Slik leses tabell B1 (P1A-resultattavle)

• Δk: nylig tilføyde frihetsgrader (større betyr en mer kompleks modell; mer kompleks betyr ikke automatisk bedre).

• Fokuser på to kolonner: lukkingsstyrke ΔlogL_closure(Δ) (større betyr mer overførbar selvkonsistens) og Joint best logL_total(Δ) (samlet felles-tilpasningsskår).

• Verdien i parentes, (Δ), viser forskjellen relativt til DM_RAZOR og gjør direkte sammenligning enklere.

• Hovedspørsmålet i denne tabellen er om lukkingsfordelen forsvinner når DM-basislinjen blir «rimelig styrket».

• Lesetips: DM_STD forbedrer den felles skåren tydelig, men lukkingsstyrken faller; EFT_BIN ligger fortsatt høyere i lukkingsstyrke.

I én setning: Innenfor dette lavdimensjonale, reviderbare settet av DM-forsterkninger fører bedre felles tilpasning ikke automatisk til sterkere lukking; lukking, altså overførbarhet, er fortsatt nøkkelkriteriet.


7 | Hvordan bør hovedresultatene leses?

7.1 Felles tilpasning: når de to datasettene ses samlet, får EFT høyere hovedsammenligningsskår

Tabell S1a og figur S4 viser at EFT-serien, med samme data, samme delte kobling og omtrent samme parameterskala, har en felles ΔlogL_total på 1155–1337 relativt til DM_RAZOR. En vanlig leser kan forstå dette slik: Under samme skåringsregel, brukt på RC og GGL sammen, får EFTs hovedsammenligningsmodeller høyere samlet skår.


7.2 Lukkingstest: Det P1 særlig vil understreke, er «overførbarhet»

Høy lukkingsstyrke betyr at parametere utledet bare fra RC kan forutsi GGL bedre uten å se på GGL på nytt. I P1-rapporten er EFTs ΔlogL_closure 172–281, mens DM_RAZOR er 127. Dette resultatet er viktigere enn å si at «hver modell passer sine egne data godt», fordi det begrenser modellens frihet på det andre datasettet.


7.3 Negativ kontroll: Hvorfor er «signalets kollaps» en god ting?

Når P1 tilfeldig stokker RC-bin→GGL-bin-grupperingskorrespondansen, faller EFTs lukkingssignal til nivået 6–23. For en vanlig leser er dette som en anti-juks-kontroll: Hvis lukkingsfordelen bare skyldtes kode, enheter, kovarianshåndtering eller tilfeldig tilpasning, kunne fordelen ha blitt værende også under stokket korrespondanse. I stedet kollapser den faktiske fordelen, noe som viser at den avhenger av riktig kobling.

Figur S3 | Lukkingsstyrke (større er bedre): gjennomsnittlig log-likelihood-fordel for RC-only → GGL-prediksjon.

Slik leses figuren

Denne figuren er kjernen i P1. Jo høyere stolpen er, desto bedre overføres informasjonen som er lært fra RC til GGL.

EFT-serien ligger samlet høyere enn DM_RAZOR, noe som viser sterkere EFT-lukking på tvers av sonder i eksperimentet «lær RC først, forutsi deretter GGL».

Figur S4 | Felles-tilpasningsfordel (større er bedre): RC+GGL best logL_total relativt til DM_RAZOR.

Slik leses figuren

Denne figuren viser totalskåren etter at RC og GGL er kombinert.

Alle EFT-modellene ligger klart over 0, noe som viser at EFTs fordel i hovedsammenligningen ikke er et lokalt enkeltpunktfenomen, men et samlet mønster i den felles analysen.

Figur R1 | Negativ kontroll: lukkingssignalet faller kraftig etter stokking av grupperingen.

Slik leses figuren

Denne figuren viser at lukkingssignalet faller markant når riktig RC↔GGL-bin-relasjon brytes.

Dette får P1-resultatet til å ligne mer på ekte konsistens i kobling på tvers av data, og ikke et numerisk sammentreff som kan oppnås med vilkårlig kobling.


8 | Robusthet og kontroller: Hvordan unngår P1 å være «bare en pen tilpasning»?

Den enkleste innvendingen mot en teknisk rapport er at fordelen kan komme fra én bestemt støyinnstilling, ett kutt i sentralregiondata, én kovariansbehandling eller overtilpasning. P1 svarer på dette med flere stresstester.

Tabell 2 | Slik leses P1s robusthetstester og negative kontroller

Test

Hvilken tvil den prøver å utelukke

Lesemåte

σ_int-skanning

Hvis RC inneholder ekstra ukjent spredning, forblir konklusjonen stabil?

Når RC-feilene slakkes, forblir EFT-rangeringen og fordelens størrelsesorden stabil.

R_min-skanning

Hvis man ikke stoler fullt på galaksenes sentrale regioner, forblir konklusjonen stabil?

Etter trimming av sentralregionene beholder EFT fortsatt en positiv fordel.

cov-shrink-skanning

Hvis estimatet av GGL-kovariansen er usikkert, forblir konklusjonen stabil?

Etter at kovariansen krympes mot diagonalen, er fordelen lite sensitiv.

Ablasjonstrapp

Er EFT avhengig av unødvendig kompleksitet for å tvinge frem en tilpasning?

Den fulle EFT_BIN støttes av informasjonskriteriene.

LOO holdt-utenfor-prediksjon

Forklarer modellen bare data den allerede har sett?

Etter at et GGL-bin holdes utenfor, viser modellen fortsatt sterk generaliseringsytelse.

RC-bin shuffle

Kommer lukking fra den sanne koblingen?

Lukking faller etter stokking av grupperingen, noe som støtter koblingsavhengighet.

Figur R2 | Område for ΔlogL_total under σ_int-skanningen (større er bedre).

Slik leses figuren

Tester om EFTs ledelse består når antatt indre RC-spredning endres.

Figur R3 | Område for ΔlogL_total under R_min-skanningen (større er bedre).

Slik leses figuren

Tester om EFTs fordel forblir stabil etter at komplekse sentralregioner trimmes.

Figur R4 | Område for ΔlogL_total under cov-shrink-skanningen (større er bedre).

Slik leses figuren

Tester om rangeringen er sensitiv for endringer i behandlingen av kovarians i svak gravitasjonslinsing.

Figur R5 | EFT_BINs ablasjonstrapp (AICc, mindre er bedre).

Slik leses figuren

Tester om den fulle EFT_BIN er nødvendig for å forklare dataene, og ikke bare legger til unødvendige parametere.

Figur R6 | LOO: log-likelihood-fordeling for holdt-utenfor-bin.

Slik leses figuren

Tester om modellen fortsatt har prediktiv ytelse på usette GGL-bin.

Figur R7 | Negativ kontroll: stokket kobling gir et tydelig fall i lukkings-mean logL_true.

Slik leses figuren

Viser videre, fra perspektivet til mean logL_true, at lukking avhenger av riktig kobling på tvers av data.


9 | P1A: Hvorfor er «flere DM-modeller i vedlegget» en nøkkelrettelse?

Denne delen spør ikke: «Slo EFT bare én minimal DM_RAZOR-basislinje?» Den spør om konklusjonene fra lukkingstest og felles tilpasning endres når DM-basislinjen styrkes innenfor et lavdimensjonalt, reproduserbart og tydelig parameterført regnskap (P1A). Med andre ord forsøker P1A å redusere innvendingen om at «dere valgte bare en for svak DM-basislinje», og flytter diskusjonen mot om lukkingsatferden fortsatt er forskjellig under et sett reviderbare DM-forsterkninger.

P1A er ikke utformet for å uttømme alle mulige former for LambdaCDM-halomodellering, og den gjør heller ikke DM-siden om til en høy-dimensjonal, ureviderbar tilpasser. Den velger lavdimensjonale og reproduserbare forsterkninger med klart parameterregnskap: konsentrasjonsspredning, adiabatisk kontraksjon, tilbakekoblingskjerne, hierarkisk c–M scatter prior, én-parameter kjerneproxy, svak-linse shear-calibration nuisance og den kombinerte DM_STD-basislinjen.

Hovedlesning av P1A

Blant de tre legacy-grenene gir bare tilbakekobling/kjerne en liten nettoøkning i lukkingsstyrke; SCAT og AC gir ingen netto lukkingsgevinst.

DM_HIER_CMSCAT, DM_RAZOR_M og DM_CORE1P har svært liten effekt på lukkingsstyrke eller viser ingen tydelig nettoforbedring.

DM_STD kan forbedre joint logL betydelig, men lukkingsstyrken faller. Det tyder på at den først og fremst øker fleksibiliteten i felles tilpasning, ikke prediksjonskraften for RC→GGL-overføring.

EFT_BIN beholder fortsatt høyere lukkingsstyrke og fordel i felles tilpasning i P1A-tabell B1; derfor bør P1s kjernepåstand ikke reduseres til «den slo bare minimal DM_RAZOR».

Figur B1 | P1A-resultattavle: lukking og felles ΔlogL relativt til basislinje (større er bedre).

Slik leses figuren

Denne figuren viser ytelsen til flere DM-forsterkningsgrener relativt til basislinjen.

Betydningen er ikke «all DM er utelukket», men dette: Innenfor de lavdimensjonale, reviderbare DM-forsterkningene som P1A velger, fjerner ikke styrking av DM EFT_BINs lukkingsfordel.


10 | Hvorfor er P1-eksperimentet viktig?

10.1 Metodologisk betydning: å plassere «lukking på tvers av sonder» over «tilpasning til én sonde»

Teori på galakseskala kan lett bli sittende fast i spørsmålet om en modell kan tilpasse et bestemt sett rotasjonskurver. P1 løfter spørsmålet ett nivå: Kan parametere som er lært fra RC, forutsi svak gravitasjonslinsing uten ny finjustering mot GGL? Dette gjør P1 fra en «tilpasningskonkurranse» til en «overførings-prediksjonstest».


10.2 Transparensbetydning: å behandle reproduksjonskjeden som en del av resultatet

Et viktig bidrag fra P1 er at den publiserer data, tabeller og figurer, kjøringsetiketter, negative kontroller, reproduksjonspakke og revisjonskjede samlet. Dette er viktig både for støttespillere og kritikere: Diskusjonen kan vende tilbake til samme offentlige data, samme kobling, samme skript og samme metrikker, i stedet for bare å sammenligne slagord.

10.3 Fysisk betydning: en sterk stresstest for retninger innen «gravitasjon uten mørk materie»

Innen retninger for gravitasjon uten mørk materie kan mange modeller forklare deler av rotasjonskurver eller RAR. Den vanskeligere oppgaven er også å bestå avlesninger fra svak gravitasjonslinsing og vise, under negative kontroller, at signalet avhenger av riktig kobling. P1 er viktig fordi den legger EFTs gjennomsnittlige gravitasjonsrespons inn i en protokoll som ligner en ekstern eksamen: RC er treningsfeltet, GGL er overføringsfeltet, og shuffle er anti-juks-feltet.


10.4 Er dette et viktig eksperiment for feltet «gravitasjon uten mørk materie»?

Forsiktig formulert: Hvis P1s databehandling, reproduksjonspakke og lukkingsprotokoll holder under ekstern gjennomgang, kan den betraktes som et RC+GGL-lukkingseksperiment som er verdt å ta alvorlig innen gravitasjon uten mørk materie / modifisert gravitasjon. Betydningen ligger ikke i slagordet «mørk materie er tilbakevist», men i at den gir et kriterium på tvers av sonder som kan replikeres, utfordres og utvides.

Finnes det allerede RC+GGL-prediksjons- og lukkingsrammer på samme nivå?

Det finnes relevante rammer og observasjonstradisjoner: MOND/RAR organiserer mange rotasjonskurvefenomener godt; KiDS-1000-arbeidet med svak-linse-RAR sammenlignet også MOND, Verlindes fremvoksende gravitasjon og LambdaCDM-modeller; LambdaCDM kan også forklare enkelte svake linse-/dynamiske fenomener gjennom galakse–halo-koblinger, gasshaloer og tilbakekoblingsmodellering.

Men P1s presise påstand er ikke at «ingen annen ramme i verden kan forklare RC+GGL». Den er snarere at EFT, under P1s egne offentlige protokoll – fast kobling, RC-only→GGL-lukking, negative shuffle-kontroller, parameterregnskap og P1A flerfoldige DM-stresstester – rapporterer sterkere lukkingsytelse.

Med andre ord er den delen av P1 som mest fortjener ekstern testing, den konkrete og reproduserbare sammenligningsprotokollen. Et svært verdifullt neste steg er å se om MOND/RAR, LambdaCDM/HOD, hydrodynamiske simuleringer eller andre rammer for modifisert gravitasjon kan nå samme eller høyere lukkingsskår under samme protokoll.


11 | Hva kan P1 konkludere med, og hva kan den ikke konkludere med?

Tabell 3 | Grensene for P1s konklusjoner

Kan konkludere

Under P1s RC+GGL-data, faste kobling og hovedsammenligningsprotokoll har EFT-serien høyere skår for felles tilpasning og høyere lukkingsstyrke enn minimal DM_RAZOR.

Kan konkludere

Innenfor P1As lavdimensjonale, reviderbare DM-forsterkningsområde fjerner flere DM-forsterkninger ikke EFT_BINs lukkingsfordel.

Kan konkludere

Den negative shuffle-kontrollen viser at lukkingssignalet avhenger av riktig kobling på tvers av data og ikke kan oppnås med vilkårlig kobling.

Kan ikke konkludere

Man kan ikke si at P1 har tilbakevist alle mørk-materie-modeller. P1A uttømmer fortsatt ikke ikke-sfærisitet, miljøavhengighet, komplekse galakse–halo-koblinger, høy-dimensjonal tilbakekobling eller komplette kosmologiske simuleringer.

Kan ikke konkludere

Man kan ikke si at den komplette EFT-rammen er bevist fra første prinsipper. P1 tester bare det fenomenologiske laget av gjennomsnittlig gravitasjonsrespons.

Kan ikke konkludere

Man kan ikke si at all systematikk er utelukket. P1 gir robusthetsevidens bare innenfor de oppførte stresstestene og revisjonsområdet.


12 | Vanlige spørsmål fra allmenne lesere

Q1: Betyr dette at «mørk materie ikke finnes»?

Nei. P1s konklusjoner må begrenses til dataene, protokollen og sammenligningsmodellene som brukes her. P1A går lenger enn minimal DM_RAZOR, men representerer fortsatt ikke alle mulige mørk-materie-modeller.

Q2: Betyr dette at «EFT er bevist»?

Heller ikke. P1 tester EFT som en parameterisering av gjennomsnittlig gravitasjonsrespons og viser sterkere ytelse i RC→GGL-lukking; den mikroskopiske mekanismen og den komplette teorien er ikke P1s konklusjon.

Q3: Hvorfor ikke rapportere en signifikansverdi direkte i σ?

P1 bruker enhetlige likelihood-skårer, informasjonskriterier og lukkingsforskjeller. ΔlogL er en relativ fordel under samme skåringsregel; det er ikke det samme som én enkelt σ-verdi.

Q4: Hvorfor stokke RC-bin→GGL-bin?

Dette er en negativ kontroll. Et ekte signal på tvers av sonder bør avhenge av riktig kobling; hvis det forblir like sterkt etter stokking, ville det snarere tyde på mulig implementeringsskjevhet eller et statistisk falskt signal.

Q5: Hva bør P1 gjøre videre?

Utvide samme protokoll til mer data, flere DM-sammenligninger, mer kompleks systematikk og flere rammer for modifisert gravitasjon – særlig på måter som gjør at eksterne team kan teste på nytt under samme lukkingsmetrikk.


13 | Miniordliste

Tabell 4 | Miniordliste

Term

Forklaring i én setning

Rotasjonskurve (RC)

Forholdet mellom radius og rotasjonshastighet i en galakseskive, brukt til å utlede effektiv gravitasjon i skiven.

Svak gravitasjonslinsing (GGL)

Måling av gjennomsnittlig gravitasjons-/massefordeling rundt forgrunnsgalakser gjennom statistisk forvrengning av bakgrunnsgalaksers former.

Lukkingstest

Bruker RC-posterioren til å forutsi GGL, og sammenligner deretter med den negative kontrollen fra stokket kobling.

Negativ kontroll

Bryter bevisst en nøkkelstruktur for å se om signalet forsvinner; brukes til å utelukke falske signaler.

NFW-halo

En tetthetsprofil for mørk-materie-haloer som ofte brukes i kalde-mørk-materie-modeller.

c–M-relasjon

Relasjonen mellom mørk-materie-haloens konsentrasjon c og masse M; om spredning tillates, påvirker modellens fleksibilitet.

DM_STD

Den standardiserte DM-stresstestgrenen i P1A, som kombinerer flere lavdimensjonale DM-forsterkninger og et nuisance-ledd for linsekalibrering.

ΔlogL

Forskjellen i log-likelihood mellom to modeller under samme skåringsregel; positiv verdi betyr at førstnevnte er bedre.

Kovarians

En matrisebeskrivelse av korrelasjoner mellom datapunkter; data fra svak gravitasjonslinsing krever vanligvis full kovarians.


14 | Foreslått lesesti og siteringsinnganger

1. Les først del 0–2 i denne teksten for å etablere P1s problemstilling og EFTs bevisst avgrensede rolle i P1.

2. Les deretter figur S3, figur S4 og tabell S1a/S1b for å forstå lukkingsstyrke, felles tilpasning og negative kontroller.

3. Hvis du er bekymret for at «DM-basislinjen er for svak», gå direkte til del 9 og tabell B1 / figur B1.

4. For teknisk kontroll, gå tilbake til P1 teknisk rapport v1.1, Tables & Figures Supplement og full_fit_runpack.

Hovedinnganger til arkivene

P1 teknisk rapport (publiseringsnivå, Concept DOI): 10.5281/zenodo.18526334

P1 full reproduksjonspakke (Concept DOI): 10.5281/zenodo.18526286

EFT strukturert kunnskapsbase (valgfritt, Concept DOI): 10.5281/zenodo.18853200

Lisensmerknad: Den tekniske rapporten bruker CC BY-NC-ND 4.0; den fulle reproduksjonspakken bruker CC BY 4.0 (bruk den tekniske rapporten og Zenodo-arkivene som autoritative kilder).


15 | Referanser og ekstern bakgrunn

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.