Forklaring til P1-rapporten — Fra rotasjonskurver til svak linsing: test av gjennomsnittlig gravitasjonsrespons i energi-tråd-teorien (Energy Filament Theory, EFT)

En publikumsrettet forklaring basert på P1_RC_GGL: en streng lukkingstest av galaksedynamikk og svak linsing (v1.1)

Originalrapport av Guanglin Tu | Versjonsgrunnlag: P1 v1.1 | Plassering: publikumsrettet forklaring / ikke en fagfellevurdert artikkel
Relaterte arkiver: rapport-DOI 10.5281/zenodo.18526334 | DOI for reproduserbarhetspakke 10.5281/zenodo.18526286

Lesenotater

Dette er en forklaringstekst, ikke en ny akademisk rapport. Den bygger på den opprinnelige P1-rapporten, bevarer nøkkelfigurer og tabeller, og legger til publikumsrettede forklaringer av «hva dette betyr» ved hvert viktig trinn.

Denne artikkelen forklarer bare konklusjonene P1 kommer til innenfor sine angitte datasett, sitt parameterregnskap og sin statistiske protokoll: i den felles testen av galaksers rotasjonskurver (RC) og svak galakse–galakse-linsing (GGL) leder EFTs modell for gjennomsnittlig gravitasjonsrespons tydelig over den minimale DM_RAZOR-basislinjen som testes her.

Artikkelen leser ikke P1 som en konklusjon om at «mørk materie er avvist». P1 er bare første trinn i P-seriens eksperimenter. Den tester ett observerbart lag innen EFT - det «gjennomsnittlige gravitasjonsgrunnlaget» - ikke hele EFT-teorien.

I. Forstå P1 på fem minutter: hva tester studien egentlig?

P1 kan leses som et valideringseksperiment på tvers av observasjonstyper. Studien spør ikke bare om en modell kan tilpasse ett datasett; den legger to svært ulike gravitasjonsavlesninger på samme revisjonsbenk: rotasjonskurver (RC) leser dynamikken inne i galakseskiver, mens svak galakse–galakse-linsing (GGL) leser den projiserte gravitasjonsresponsen på større skalaer.

RC fungerer som et speedometer: det viser hvor raskt gass og stjerner går i bane ved ulike radier inne i en galakseskive.
GGL fungerer som en vekt: ved å måle hvordan forgrunnsgalakser bøyer lyset fra bakgrunnsgalakser svakt, kan man slutte seg til den gjennomsnittlige gravitasjons- og massefordelingen rundt galakser i større skala.
Kjernespørsmålet i P1 er dette: kan den samme modellen lære et mønster fra RC og fortsatt gi mening når mønsteret overføres til GGL?

P1s viktigste poeng

P1 hever sammenligningsterskelen fra «passer den én observasjonstype godt?» til «lukker den på tvers av observasjonstyper?». God ytelse under riktig tilordning, etterfulgt av signalkollaps når tilordningen stokkes, tyder på at modellen kan ha fanget en gravitasjonsstruktur som RC og GGL deler.

Tabell 0 | P1s kjernetall og hvordan de bør leses

Metrikk	Hvordan P1 / P1A leser den	Enkelt forklart
Felles tilpasning ΔlogL_total	Hovedsammenligning: EFT ligger 1155–1337 over DM_RAZOR	Totalskårforskjell på tvers av de to datasettene; større betyr en bedre samlet forklaring.
Lukkingsstyrke ΔlogL_closure	Hovedsammenligning: EFT er 172–281, mens DM_RAZOR er 127	Evnen til å forutsi GGL etter å ha utledet fra RC alene; større betyr mer selvkonsistens på tvers av observasjonstyper.
Stokket negativ kontroll	Etter stokking av RC-bin→GGL-bin faller EFTs lukkingssignal til 6–23	Hvis riktig korrespondanse brytes, bør fordelen forsvinne; jo mer den forsvinner, desto mer utelukkes falske signaler.
P1A fler-DM-stresstest	DM 7+1 + DM_STD, med EFT_BIN beholdt som sammenligningsmodell	P1A ser ikke bare på den minimale DM_RAZOR; den legger flere lavdimensjonale, etterprøvbare DM-forsterkningsgrener inn i samme lukkeprotokoll.

II. Hvorfor P1 trengtes: hvor kosmologi i galakseskala kjører seg fast

Galakseskalaproblemet har vært vanskelig fordi behovet for «ekstra gravitasjon/masse» ikke bare er et rotasjonskurvefenomen. En stor mengde observasjoner viser en tett kobling mellom synlig baryonisk materie i galakser og faktiske dynamiske avlesninger og linseavlesninger. For mørk-materie-ruten betyr det at mørke haloer, baryonisk tilbakekobling, galaksedannelseshistorier og observasjonelle systematikker må samordnes med stor presisjon. For gravitasjonsruter uten DM betyr det at en modell ikke bare kan se god ut på RC; den må også holde under svak linsing, populasjonsskaleringsrelasjoner og negative kontroller.

Det er motivasjonen bak P1. Studien starter ikke med påstanden «mørk materie er feil» eller «EFT må være riktig». Den setter én testbar påstand på prøve: kan EFTs gjennomsnittlige gravitasjonsrespons etterlate et reproduserbart og overførbart signal i RC→GGL-lukking på tvers av observasjonstyper?

Ekstern litteraturkontekst: hvorfor RC+GGL-vinduet er viktig

McGaugh, Lelli og Schombert (2016) foreslo den radiale akselerasjonsrelasjonen (RAR), som viser en tett sammenheng med liten spredning mellom den observerte akselerasjonen sporet av rotasjonskurver og akselerasjonen forutsagt fra baryonisk materie. Dette gjør koblingen baryoner–gravitasjonsrespons til et uunngåelig spørsmål for teorier på galakseskala.

Brouwer et al. (2021) brukte KiDS-1000 svak linsing til å utvide RAR til lavere akselerasjoner og større radier, og sammenlignet MOND, Verlindes emergente gravitasjon og LambdaCDM-modeller. De påpekte også at forskjeller mellom tidlige og sene galaksetyper, gasshaloer og galakse–halo-koblinger fortsatt er sentrale forklaringsspørsmål.

Mistele et al. (2024) brukte videre svak linsing til å utlede sirkelhastighetskurver for isolerte galakser og rapporterte ingen klar nedgang ut til hundrevis av kpc og til og med rundt 1 Mpc, i samsvar med BTFR. Dette viser at svak linsing blir en viktig ekstern avlesning for gravitasjonsrespons på galakseskala.

Verdien av P1 ligger derfor ikke i at den er først ute med å diskutere RC og GGL sammen. Verdien ligger i at de plasseres i en etterprøvbar protokoll bygd av fast tilordning, et parameterregnskap, RC-only→GGL-lukking, stokkingbaserte negative kontroller og P1As fler-DM-stresstester.

III. Hva betyr EFT i P1? Det er ikke effektiv feltteori

Her betyr EFT energi-tråd-teorien, ikke den effektive feltteorien (Effective Field Theory) som er kjent fra fysikk. I den tekniske P1-rapporten brukes EFT svært nøkternt: den går ikke inn som en komplett sluttteori, men komprimeres først til en observerbar, tilpasningsklar og falsifiserbar parametrisering av en «gjennomsnittlig gravitasjonsrespons».

Sagt enklere forsøker ikke P1 å diskutere alle mikroskopiske kilder til ekstra gravitasjon, og den forsøker heller ikke å bevise hele EFT-rammeverket i ett grep. Den stiller et smalere og hardere spørsmål: dersom en form for gjennomsnittlig ekstra gravitasjonsrespons finnes på galakseskala, kan den først forklare RC og deretter overføres til å forutsi GGL?

Hvilken del av EFT tester P1?

P1 tester det «gjennomsnittlige gravitasjonsgrunnlaget»: et statistisk stabilt og overførbart gjennomsnittsbidrag.

P1 behandler ennå ikke det «stokastiske / støybaserte grunnlaget»: tilfeldige ledd, objekt-til-objekt-forskjeller eller ekstra spredning som kan komme fra mer mikroskopiske fluktuasjonsprosesser.

P1 diskuterer heller ikke den komplette mikroskopiske mekanismen, forekomster, levetider eller globale kosmologiske begrensninger. Den er første trinn i P-seriens eksperimenter, ikke den endelige dommen.

IV. P-seriens plan: hvorfor starte med det «gjennomsnittlige grunnlaget»?

P-serien kan forstås som EFTs program for observasjonell gjenfinning. Den legger ikke alle påstander på bordet samtidig. I stedet isolerer den den delen som er enklest å teste med offentlige data. P1 begynner med gjennomsnittsleddet: hvis den gjennomsnittlige gravitasjonsresponsen ikke kan lukkes fra RC til GGL, finnes det ikke et solid inngangspunkt for å diskutere mer komplekse støyledd eller mikroskopiske mekanismer.

Tabell 1 | Lagdelt plassering av P-serien

Lag	Spørsmål	Plassering i P1
P1	Kan den gjennomsnittlige gravitasjonsresponsen lukkes fra RC til GGL?	Hovedspørsmålet i den aktuelle rapporten
P1A	Hvis DM-siden styrkes, forblir konklusjonen stabil?	Vedlegg B: DM 7+1 + DM_STD-stresstest
Fremtidig P-serie-arbeid	Kan dette utvides til mer data, flere observasjonstyper og mer komplekse systematikker?	Fremtidig retning
Dypere spørsmål	Hvordan henger gjennomsnittsleddet, støyleddet og de mikroskopiske mekanismene sammen?	Utenfor P1s konklusjonsområde

V. Hvilke data brukes? Hva forteller RC og GGL hver for seg?

V.I Rotasjonskurver (RC): et fartsmål inne i galakseskiver

Rotasjonskurver registrerer hvor raskt gass og stjerner går i bane ved ulike radier fra galaksens sentrum. Høyere banehastigheter innebærer et behov for sterkere sentripetalkraft, og dermed en sterkere effektiv gravitasjonsrespons. P1 bruker SPARC-databasen; etter forbehandling omfatter den 104 galakser, 2 295 hastighetsmålepunkter og 20 RC-binner.

V.II Svak linsing (GGL): en gravitasjonsvekt på større skala

Svak galakse–galakse-linsing måler hvordan forgrunnsgalakser svakt bøyer lyset fra bakgrunnsgalakser. Den svarer til en større, halo-skala projisert gravitasjonsrespons og avhenger ikke av detaljene i gassdynamikken i galakseskiver. P1 bruker offentlige GGL-data fra KiDS-1000 / Brouwer et al. (2021): fire binner for stjernemasse, 15 radielle punkter per bin, til sammen 60 datapunkter, med full kovarians.

V.III Fast tilordning: hvorfor 20 RC-binner → 4 GGL-binner betyr noe

P1 kobler 20 RC-binner til 4 GGL-binner gjennom en fast regel: hver GGL-bin svarer til fem RC-binner, gjennomsnittet med vekter etter antall galakser. Denne tilordningen holdes fast for hver modell. Den er en hard begrensning for lukkingstesten og for en rettferdig sammenligning.

Hvorfor ikke justere tilordningen i etterkant?

Hvis man i etterkant fikk velge hvilke RC-binner som skulle svare til hvilke GGL-binner, kunne en modell lage lukking ved å omorganisere samsvaret. P1 låser 20→4-tilordningen på forhånd og bryter den bevisst med en negativ stokkingkontroll nettopp for å teste om lukkingssignalet virkelig avhenger av et fysisk rimelig samsvar.

VI. Modeller og metoder: hva sammenligner P1 egentlig?

VI.I EFT-siden: en lavdimensjonal gjennomsnittlig gravitasjonsrespons

På EFT-siden beskriver et lavdimensjonalt ekstra hastighetsledd den gjennomsnittlige gravitasjonsresponsen. Formen på ekstraleddet styres av en dimensjonsløs kjernefunksjon f(r/ℓ), der ℓ er en global skala, mens amplitudene tildeles etter RC-bin. Ulike kjerner koder ulike starthelninger, overgangsatferd og langtrekkende haler, og fungerer som stresstester av robusthet.

VI.II DM-siden: hovedsammenligningen og vedlegg P1A må leses hver for seg

I hovedsammenligningen er DM_RAZOR en minimert og etterprøvbar NFW-basislinje: den låser c–M-relasjonen og inkluderer verken spredning fra halo til halo, adiabatisk kontraksjon, tilbakekoblingskjerne, ikke-sfærisitet eller miljøledd. Fordelen ved dette designet er kontrollerte frihetsgrader og enkel reproduserbarhet; begrensningen er at det ikke representerer alle LambdaCDM-modeller eller alle halo-modeller for mørk materie.

Derfor gjør vedlegg B (P1A) DM-siden om til en standardisert stresstest. Uten å endre den felles tilordningen eller lukkeprotokollen legger det gradvis til lavdimensjonale forsterkningsgrener som SCAT, AC, FB, HIER_CMSCAT, CORE1P, linsekalibreringsleddet m og den kombinerte basislinjen DM_STD, samtidig som EFT_BIN beholdes som sammenligningsmodell. En god måte å lese P1A på er denne: den sammenligner ikke EFT bare med én minimal DM-basislinje; den legger et sett vanlige, etterprøvbare DM-mekanismer under den samme «lukkingslinjalen».

Den presise konklusjonen brukt her

Hovedtekst: EFT-familien gjør det betydelig bedre enn den minimale DM_RAZOR i hovedsammenligningen.

Vedlegg B / P1A: på tvers av flere lavdimensjonale, etterprøvbare DM-forsterkningsgrener og DM_STD-stresstesten forbedres noen felles DM-tilpasninger, men lukkingsstyrken visker ikke ut EFT_BINs fordel.

Den tryggeste formuleringen er derfor: innenfor P1/P1As data, tilordning, parameterregnskap og lukkeprotokoll viser EFTs gjennomsnittlige gravitasjonsrespons sterkere konsistens på tvers av data. Dette er ikke det samme som å utelukke alle mørk-materie-modeller.

VI.III Lukkingstest: P1s viktigste eksperimentelle logikk

1. Tilpass bare RC og hent et sett posterior-prøver basert bare på RC.

2. Ikke tilpass på nytt mot GGL; bruk RC-posterioren direkte til å forutsi GGL.

3. Bruk full kovarians til å beregne GGL-prediksjonsskåren logL_true under riktig tilordning.

4. Stokk tilfeldig samsvaret mellom RC-binner og GGL-binner, og beregn den negative kontrollskåren logL_perm.

5. Trekk de to fra hverandre for å få lukkingsstyrken: ΔlogL_closure = <logL_true> − <logL_perm>.

En enkel analogi

Lukkingstesten er som en ny eksamen under kryssforhør: modellen lærer først en regel i RC-eksamensrommet, og svarer deretter i GGL-eksamensrommet. Hvis den har lært en delt regel og ikke et lokalt triks, bør den fortsatt klare seg godt i det andre rommet; hvis samsvaret mellom eksamensrommene bevisst stokkes, bør fordelen forsvinne.

VI.IV Før du leser de tekniske tabellene: fire innganger

Tabell 5.4 | Slik leser du neste sett med brede tekniske tabeller

Inngang	Hva du bør se på	Hvorfor det er viktig
Tabell S1a	RC+GGL samlet felles tilpasningsskår	Svar: «Hvem har den sterkeste samlede forklaringen på tvers av begge datasett?»
Tabell S1b	Lukkingsstyrke, stokking og robusthetsskanninger	Svar: «Kan det som er lært fra RC, overføres til GGL?»
Tabell B0	Definisjoner av flere DM-forsterkningsgrener i P1A	Hindrer at P1 reduseres til «bare sammenlignet med den minimale DM_RAZOR».
Tabell B1	P1A-resultattavle for lukking og felles tilpasning	Sjekker om forsterket DM visker ut lukkingsfordelen.

Layoutmerknad

Neste side går over i liggende retning slik at de brede tabellene fra originalrapporten kan bevares uten å slette kolonner eller presse dem sammen til uleselighet. Hovedteksten har allerede gitt en lesning på vanlig språk; de liggende tekniske tabellene er for lesere som trenger å kontrollere tall og modellgrener.

Figur 0.1 | P1s arbeidsflyt for lukkingstest, kort fortalt

Merk: den øvre kjeden er «lukkingstesten» (tilpass bare RC → bruk RC-posterioren til å forutsi GGL); den nedre kjeden er «felles tilpasning» (skår RC+GGL samlet). Høyresiden sammenligner den sanne tilordningen med stokket tilordning for å finne lukkingsstyrken ΔlogL.

VII. Sentrale tekniske tabeller: tabeller fra hovedrapporten og P1A-tabeller

Tabell S1a | Hovedmål for felles tilpasning (RC+GGL, streng; beholdt fra originalrapporten)

Modell (arbeidsområde)	W-kjerne	k	Felles logL_total (best)	ΔlogL_total vs. DM	AICc	BIC
DM_RAZOR	ingen	20	-16927.763	0.0	33895.885	34010.811
EFT_BIN	ingen	21	-15590.552	1337.21	31223.501	31344.155
EFT_WEXP	eksponentiell	21	-15668.83	1258.932	31380.057	31500.711
EFT_WYUK	yukawa	21	-15772.936	1154.827	31588.268	31708.922
EFT_WPOW	powerlaw_tail	21	-15633.321	1294.442	31309.038	31429.692

Tabell S1b | Lukkings- og robusthetsmål (streng; beholdt fra originalrapporten)

Modell (arbeidsområde)	Lukking ΔlogL (sann-permutert)	ΔlogL etter negativ kontroll med stokking	Område for σ_int-skanning ΔlogL	Område for R_min-skanning ΔlogL	Område for cov-shrink-skanning ΔlogL
DM_RAZOR	126.678	22.725	—	—	—
EFT_BIN	231.611	14.984	459–1548	1243–1289	1337–1351
EFT_WEXP	171.977	6.04	408–1471	1169–1207	1259–1277
EFT_WYUK	179.808	14.688	380–1341	1065–1099	1155–1166
EFT_WPOW	280.513	6.672	457–1500	1203–1247	1294–1308

Tabell B0 | Definisjoner av DM-forsterkningsgrener i P1A (beholdt fra vedlegg B i originalrapporten)

Arbeidsområde	dm_model	Nye parametere (≤1)	Fysisk motivasjon (kjerne)	Implementeringsregel (revisjonsvennlig)
DM_RAZOR	NFW (fast c–M, ingen spredning)	—	Minimal, etterprøvbar LambdaCDM-halo-basislinje; brukt som streng sammenligningsmodell for EFT	Felles tilordning fast; strengt parameterregnskap; brukes bare som basislinje for relativ sammenligning
DM_RAZOR_SCAT	NFW + c–M-spredning (eldre gren)	σ_logc	c–M-relasjonen har spredning; tilnærmet med én parameter for log-normal spredning	≤1 ny parameter; bruker fortsatt felles tilordning; lukkingsgevinst er akseptkriteriet
DM_RAZOR_AC	NFW + adiabatisk kontraksjon (eldre gren)	α_AC	Baryonisk innfall kan utløse adiabatisk kontraksjon i haloen; tilnærmet med én styrkeparameter	≤1 ny parameter; tilordning uendret; rapporterer endringer i AICc/BIC og lukkingsgevinst
DM_RAZOR_FB	NFW + tilbakekoblingskjerne (eldre gren)	log r_core	Tilbakekobling kan danne en kjerne i den indre regionen; tilnærmet med én kjerneskalaparameter	≤1 ny parameter; samme lukke-/negativ-kontroll-protokoll; RC-only-forbedring er ikke eneste mål
DM_HIER_CMSCAT	Hierarkisk c–M-spredning + prior	σ_logc (hier)	En mer standard hierarkisk c_i∼logN(c(M_i), σ_logc); påvirker RC- og GGL-fellesposterioren samtidig	Eksplisitt prior; latente c_i marginaliseres; forblir lavdimensjonal og etterprøvbar
DM_CORE1P	Én-parameters kjerneproxy (inspirert av coreNFW/DC14)	log r_core	Bruker en én-parameters kjerneproxy for den viktigste effekten av baryonisk tilbakekobling og unngår høydimensjonale detaljer om stjernedannelse	Viser til standardlitteratur; ≤1 ny parameter; koblet til lukkingstesten
DM_RAZOR_M	NFW + systematikkledd for linsebasert skjærkalibrering	m_shear (GGL)	Absorberer en viktig systematikk på svak-linsing-siden som en effektiv parameter, slik at systematikker ikke behandles som fysikk	Systematikkleddet gjøres eksplisitt rede for; får ikke mates tilbake i RC; resultater vurderes hovedsakelig etter lukkerobusthet
DM_STD	Standardisert DM-basislinje (HIER_CMSCAT + CORE1P + m)	σ_logc + log r_core (+ m_shear)	Legger tre vanlige innvendingsklasser inn i en fortsatt lavdimensjonal standardisert basislinje	Rapporterer parameterregnskap og informasjonskriterier samlet; lukking er hovedmetrikken; brukes som den sterkeste DM-forsvarssammenligningen

Tabell B1 | P1A-resultattavle (høyere er bedre; beholdt fra vedlegg B i originalrapporten)

Modellgren (arbeidsområde)	Δk	RC-only beste logL_RC (Δ)	Lukkingsstyrke ΔlogL_closure (Δ)	Felles beste logL_total (Δ)
DM_RAZOR	0	-15702.654 (+0.000)	122.205 (+0.000)	-27347.068 (+0.000)
DM_RAZOR_SCAT	1	-15702.294 (+0.361)	121.236 (-0.969)	-23153.311 (+4193.758)
DM_RAZOR_AC	1	-15703.689 (-1.035)	121.531 (-0.674)	-23982.557 (+3364.511)
DM_RAZOR_FB	1	-15496.046 (+206.609)	129.454 (+7.249)	-27478.531 (-131.463)
DM_HIER_CMSCAT	1	-15702.644 (+0.010)	121.978 (-0.227)	-23153.160 (+4193.908)
DM_CORE1P	1	-15723.158 (-20.504)	122.056 (-0.149)	-27336.258 (+10.810)
DM_RAZOR_M	0 (+m)	-15702.654 (+0.000)	122.205 (+0.000)	-27340.451 (+6.617)
DM_STD	2 (+m)	-15832.203 (-129.549)	105.690 (-16.515)	-22984.445 (+4362.623)
EFT_BIN	1	-14631.537 (+1071.117)	204.620 (+82.415)	-19001.142 (+8345.926)

Slik leser du tabell B1 (P1A-resultattavle)

• Δk: ekstra frihetsgrader (større betyr en mer kompleks modell; mer kompleks betyr ikke nødvendigvis bedre).

• Fokuser på to kolonner: lukkingsstyrke ΔlogL_closure(Δ) (større betyr mer selvkonsistens ved overføring) og felles beste logL_total(Δ) (total felles tilpasningsskår).

• (Δ) i parentes er forskjellen relativt til DM_RAZOR, slik at direkte sammenligning blir enkel.

• Hovedspørsmålet tabellen stiller er: hvis DM-basislinjen «rimelig forsterkes», forsvinner da lukkingsfordelen?

• Lesemerknad: DM_STD forbedrer den felles skåren betydelig, men lukkingsstyrken faller faktisk; EFT_BIN beholder fortsatt en høyere lukkingsstyrke.

Én-setningsoppsummering: innenfor dette lavdimensjonale, etterprøvbare området av DM-forsterkninger gir bedre felles tilpasning ikke automatisk sterkere lukking; lukking (overførbarhet) forblir nøkkelkriteriet.

VIII. Hvordan bør hovedresultatene leses?

VIII.I Felles tilpasning: over begge datasett skårer EFTs hovedsammenligning høyere

Tabell S1a og figur S4 viser at EFT-familien, under samme data, samme felles tilordning og nesten samme parameterskala, har en felles ΔlogL_total på 1155–1337 relativt til DM_RAZOR. For allmennlesere betyr dette at EFT-modellene i hovedsammenligningen får en høyere totalskår under én skåringsregel som kombinerer RC og GGL.

VIII.II Lukkingstest: P1s hovedvekt ligger på overførbarhet

Høy lukkingsstyrke betyr at en modell kan utlede parametere fra RC alene og, uten å se på GGL på nytt, forutsi GGL bedre. I P1-rapporten har EFT ΔlogL_closure = 172–281, mens DM_RAZOR har 127. Dette er viktigere enn å si at «hver tilpasning ser grei ut», fordi det begrenser modellens frihet på det andre datasettet.

VIII.III Negativ kontroll: hvorfor er «signalkollaps» et godt tegn?

Når P1 tilfeldig stokker grupperingssamsvaret mellom RC-binner og GGL-binner, faller EFTs lukkingssignal til intervallet 6–23. For allmennlesere er dette et anti-juks-trinn: hvis lukkingsfordelen bare kom fra kode, enheter, kovariansvalg eller en tilpasningstilfeldighet, kunne stokket samsvar fortsatt vist en fordel. I stedet kollapser fordelen, noe som viser at den avhenger av riktig tilordning.

Figur S3 | Lukkingsstyrke (høyere er bedre): gjennomsnittlig log-likelihood-fordel for RC-only → GGL-prediksjon.

Slik leser du denne figuren

Denne figuren er kjernen i P1. Jo høyere stolpen er, desto bedre overføres informasjonen en modell lærte fra RC, til GGL.

EFT-familien som helhet står over DM_RAZOR, noe som peker mot sterkere lukking på tvers av observasjonstyper i eksperimentet «lær RC først, forutsi GGL etterpå».

Figur S4 | Fordel i felles tilpasning (høyere er bedre): RC+GGL beste logL_total relativt til DM_RAZOR.

Slik leser du denne figuren

Denne figuren viser totalskåren etter at RC og GGL er kombinert.

Alle EFT-varianter ligger klart over 0, noe som viser at EFT-fordelen i hovedsammenligningen ikke er en lokal ettpunkts-effekt, men den samlede oppførselen i fellesanalysen.

Figur R1 | Negativ kontroll: lukkingssignalet faller kraftig etter stokket gruppering.

Slik leser du denne figuren

Denne figuren viser at når den riktige RC↔GGL-bin-relasjonen stokkes, faller lukkingssignalet kraftig.

Det får P1-resultatet til å ligne mer på reell konsistens i en tilordning på tvers av data enn på et numerisk sammentreff som kan oppnås under vilkårlige tilordninger.

IX. Robusthet og kontroller: hvordan unngår P1 at svaret bare er «den passer bedre»?

En teknisk rapport er mest sårbar for innvendingen om at fordelen kan komme fra én bestemt støyinnstilling, et valg av data fra sentralområdet, kovarianshåndtering eller overtilpasning. P1 svarer på denne innvendingen med flere stresstester.

Tabell 2 | Slik leser du P1s robusthetstester og negative kontroller

Test	Bekymring den prøver å utelukke	Hvordan den bør leses
σ_int-skanning	Hvis RC inneholder ekstra ukjent spredning, forblir konklusjonen stabil?	Etter at RC-feilene løsnes, forblir EFT-rangeringen og fordelskalaen stabile.
R_min-skanning	Hvis den sentrale galakseregionen ikke er fullt ut pålitelig, forblir konklusjonen stabil?	Etter trimming av sentralregionen beholder EFT fortsatt en positiv fordel.
cov-shrink-skanning	Hvis GGL-kovariansestimatet er usikkert, forblir konklusjonen stabil?	Etter at kovariansen krympes mot en diagonal matrise, er fordelen ikke sensitiv.
Ablasjonsstige	Tvinger EFT fram en tilpasning gjennom unødvendig kompleksitet?	Full EFT_BIN er nødvendig under informasjonskriteriene.
LOO holdt-ute-prediksjon	Forklarer modellen bare data den allerede har sett?	Etter at en GGL-bin holdes ute, viser modellen fortsatt sterk generalisering.
RC-bin-stokking	Kommer lukking fra den reelle tilordningen?	Lukking faller etter at grupperingen stokkes, noe som støtter tilordningsavhengighet.

Figur R2 | Intervall for ΔlogL_total under σ_int-skanningen (høyere er bedre).

Slik leser du denne figuren

Tester om EFTs ledelse består etter endringer i innstillingen for RCs intrinsiske spredning.

Figur R3 | Intervall for ΔlogL_total under R_min-skanningen (høyere er bedre).

Slik leser du denne figuren

Tester om EFTs fordel forblir stabil etter trimming av den komplekse sentralregionen.

Figur R4 | Intervall for ΔlogL_total under cov-shrink-skanningen (høyere er bedre).

Slik leser du denne figuren

Tester om rangeringen er sensitiv for endringer i håndtering av svak-linsingskovarians.

Figur R5 | Ablasjonsstige for EFT_BIN (AICc; lavere er bedre).

Slik leser du denne figuren

Tester om full EFT_BIN er nødvendig for å forklare dataene, snarere enn bare å legge til parametere.

Figur R6 | LOO: fordeling av log-likelihood for holdt-tilbake bin.

Slik leser du denne figuren

Tester om modellen fortsatt forutsier godt på en usett GGL-bin.

Figur R7 | Negativ kontroll: stokket tilordning gir et tydelig fall i gjennomsnittlig logL_true.

Slik leser du denne figuren

Viser videre, fra perspektivet til gjennomsnittlig logL_true, at lukking avhenger av riktig tilordning på tvers av data.

X. P1A: hvorfor de mange DM-modellene i vedlegget betyr noe

Denne delen spør ikke: «Slo EFT bare én minimal DM_RAZOR?» Den spør om konklusjonene fra lukkingstest og felles tilpasning endres når DM-basislinjen styrkes innenfor et lavdimensjonalt, reproduserbart og tydelig regnskapsført parameteroppsett (P1A). Med andre ord skal P1A redusere innvendingen om at sammenligningen brukte en for svak DM-basislinje, og flytte diskusjonen mot om lukkingsytelsen fortsatt skiller seg ut under et sett etterprøvbare DM-forsterkninger.

P1A forsøker ikke å uttømme alle mulige halo-modelleringsvalg innen LambdaCDM, og gjør heller ikke DM-siden til en høydimensjonal, ikke-etterprøvbar tilpasningsmaskin. Den velger lavdimensjonale, reproduserbare og regnskapsklare forsterkninger: konsentrasjonsspredning, adiabatisk kontraksjon, tilbakekoblingskjerne, hierarkisk prior for c–M-spredning, en én-parameters kjerneproxy, systematikkledd for svak-linsingens skjærkalibrering og den kombinerte DM_STD-basislinjen.

Hovedlesning av P1A

Blant de tre eldre grenene gir bare tilbakekobling/kjerne en liten netto gevinst i lukkingsstyrke; SCAT og AC gir ingen netto lukkingsgevinst.

DM_HIER_CMSCAT, DM_RAZOR_M og DM_CORE1P har liten effekt på lukkingsstyrken eller viser ingen betydelig nettogevinst.

DM_STD kan forbedre felles logL betydelig, men lukkingsstyrken faller. Det tyder på at den først og fremst øker fleksibiliteten i felles tilpasning, ikke prediksjonskraften i overføringen RC→GGL.

I P1A tabell B1 beholder EFT_BIN fortsatt høyere lukkingsstyrke og en fordel i felles tilpasning. P1s kjernepåstand bør derfor ikke forenkles til «den slo bare den minimale DM_RAZOR».

Figur B1 | P1A-resultattavle: lukking og felles ΔlogL relativt til basislinjen (høyere er bedre).

Slik leser du denne figuren

Denne figuren viser hvordan flere DM-forsterkningsgrener presterer relativt til basislinjen.

Betydningen er ikke «all DM er utelukket». Den viser at forsterket DM, innenfor det lavdimensjonale og etterprøvbare DM-forsterkningsområdet valgt i P1A, ikke fjerner EFT_BINs lukkingsfordel.

XI. Hvorfor P1-eksperimentet er viktig

XI.I Metodisk betydning: sett lukking på tvers av observasjonstyper over tilpasning til én observasjonstype

Teorier i galakseskala kjører seg ofte fast i diskusjoner om hvorvidt en modell kan tilpasse ett sett rotasjonskurver. P1 hever terskelen: kan parametere lært fra RC forutsi svak linsing uten ny tilpasning mot GGL? Det gjør P1 fra en tilpasningskonkurranse til en test av overføringsprediksjon.

XI.II Betydning for åpenhet: gjør den reproduserbare kjeden til en del av resultatet

Et viktig bidrag fra P1 er at data, tabeller og figurer, kjøremerker, negative kontroller, reproduserbarhetspakke og revisjonsspor publiseres samlet. Det betyr noe både for støttespillere og kritikere: diskusjonen kan vende tilbake til de samme offentlige dataene, den samme tilordningen, de samme skriptene og de samme metrikker, i stedet for å sammenligne slagord.

XI.III Fysisk betydning: en sterk stresstest for gravitasjon uten DM

Innen gravitasjonsretninger uten DM kan mange modeller forklare deler av rotasjonskurve- eller RAR-fenomenologien. Den vanskeligere oppgaven er å bestå svak-linseavlesninger samtidig og vise, under negative kontroller, at signalet avhenger av riktig tilordning. Betydningen av P1 er at EFTs gjennomsnittlige gravitasjonsrespons plasseres i en protokoll som ligner en ekstern eksamen: RC er treningsfeltet, GGL er overføringsfeltet, og stokking er anti-juks-feltet.

XI.IV Er dette et viktig eksperiment for feltet gravitasjon uten DM?

Forsiktig formulert: dersom P1s databehandling, reproduserbarhetspakke og lukkeprotokoll står seg under ekstern replikasjon, kan den regnes som et RC+GGL-lukkingseksperiment det er verdt å ta alvorlig innen forskning på gravitasjon uten DM / modifisert gravitasjon. Betydningen ligger ikke i uttrykket «mørk materie er avvist», men i at den gir et kriterium på tvers av observasjonstyper som kan kopieres, utfordres og utvides.

Finnes det allerede et like sterkt rammeverk for RC+GGL-prediksjonslukking?

Relevante rammeverk og observasjonstradisjoner finnes allerede: MOND/RAR organiserer en stor mengde rotasjonskurvefenomener svært godt; KiDS-1000-arbeid med svak-linsings-RAR har også sammenlignet MOND, Verlindes emergente gravitasjon og LambdaCDM-modeller; LambdaCDM kan også forklare noen svak-linsings- og dynamiske fenomener gjennom galakse–halo-koblinger, gasshaloer og tilbakekoblingsmodellering.

Men P1s presise påstand er ikke «ingen andre rammeverk i verden kan forklare RC+GGL». Påstanden er at EFT, under P1s egen offentlige protokoll - fast tilordning, RC-only→GGL-lukking, negativ stokkingkontroll, parameterregnskap og P1A fler-DM-stresstester - rapporterer sterkere lukkeytelse.

Med andre ord er den delen av P1 som mest fortjener ekstern testing, den konkrete og reproduserbare sammenligningsprotokollen den foreslår. Om MOND/RAR, LambdaCDM/HOD, hydrodynamiske simuleringer eller andre rammeverk for modifisert gravitasjon kan nå samme eller høyere lukkingsskår under samme protokoll, er et svært verdifullt neste trinn.

XII. Hva kan P1 konkludere med? Hva kan den ikke konkludere med?

Tabell 3 | Grensene for P1s konklusjoner

Kan konkludere	Under P1s RC+GGL-data, faste tilordning og hovedsammenligningsprotokoll har EFT-familien høyere felles tilpasning og lukkingsstyrke enn den minimale DM_RAZOR.
Kan konkludere	Innenfor P1As lavdimensjonale, etterprøvbare DM-forsterkningsområde visker flere DM-forsterkninger ikke ut EFT_BINs lukkingsfordel.
Kan konkludere	Den negative stokkingkontrollen viser at lukkingssignalet avhenger av riktig tilordning på tvers av data, ikke av vilkårlige tilordninger.
Kan ikke konkludere	Den kan ikke konkludere med at P1 har veltet alle modeller for mørk materie. P1A uttømmer fortsatt ikke ikke-sfærisitet, miljøavhengighet, komplekse galakse–halo-koblinger, høydimensjonal tilbakekobling eller fulle kosmologiske simuleringer.
Kan ikke konkludere	Den kan ikke konkludere med at hele EFT-teorien er bevist fra første prinsipper. P1 tester bare det fenomenologiske laget av gjennomsnittlig gravitasjonsrespons.
Kan ikke konkludere	Den kan ikke konkludere med at alle systematikker er utelukket. P1 gir robusthetsevidens bare innenfor de oppførte stresstestene og revisjonsområdet.

XIII. Vanlige spørsmål

Q1: Sier dette at «mørk materie ikke finnes»?

Nei. P1s konklusjon må begrenses til dataene, protokollen og sammenligningsmodellene som brukes i denne artikkelen. P1A går lenger enn den minimale DM_RAZOR-basislinjen, men representerer fortsatt ikke alle mulige modeller for mørk materie.

Q2: Sier dette at «EFT allerede er bevist»?

Også nei. P1 tester EFT som en parametrisert gjennomsnittlig gravitasjonsrespons og viser sterkere ytelse i RC→GGL-lukking; mikroskopiske mekanismer og hele teorien er ikke konklusjoner i P1.

Q3: Hvorfor ikke oppgi signifikans direkte i σ?

P1 bruker en samlet likelihood-skår, informasjonskriterier og lukkingsforskjeller. ΔlogL er en relativ fordel under samme skåringsregel; det er ikke det samme som én enkelt σ-verdi.

Q4: Hvorfor stokke RC-bin→GGL-bin?

Dette er den negative kontrollen. Et reelt signal på tvers av observasjonstyper bør avhenge av riktig tilordning. Hvis den stokket varianten forble like sterk, ville det heller tyde på implementeringsskjevhet eller et statistisk falskt signal.

Q5: Hva bør P1 gjøre videre?

Utvide den samme protokollen til mer data, flere DM-kontroller, mer komplekse systematikker og flere rammeverk for modifisert gravitasjon, særlig på måter som gjør at eksterne grupper kan gjenskape samme lukkemetrikk.

XIV. Miniordliste

Tabell 4 | Miniordliste

Term	Én-setningsforklaring
Rotasjonskurve (RC)	Forholdet mellom radius og hastighet i en galakseskive, brukt til å utlede effektiv gravitasjon inne i skiven.
Svak linsing (GGL)	Måler den gjennomsnittlige gravitasjons-/massefordelingen rundt forgrunnsgalakser gjennom statistisk forvrengning av formene til bakgrunnsgalakser.
Lukkingstest	Bruker RC-posterioren til å forutsi GGL og sammenligner med en negativ kontroll basert på stokket tilordning.
Negativ kontroll	Bryter bevisst en nøkkelstruktur for å se om signalet forsvinner; brukes til å utelukke falske signaler.
NFW-halo	En tetthetsprofil for mørk-materie-haloer som ofte brukes i modeller for kald mørk materie.
c–M-relasjon	Relasjonen mellom en mørk-materie-halos konsentrasjon c og masse M; å tillate spredning endrer modellens fleksibilitet.
DM_STD	I P1A er dette en standardisert DM-stresstestgren som kombinerer flere lavdimensjonale DM-forsterkninger og et systematikkledd for linsing.
ΔlogL	Forskjell i log-likelihood mellom to modeller under samme skåringsregel; positive verdier betyr at førstnevnte presterer bedre.
Kovarians	En matrisebeskrivelse av korrelasjoner mellom datapunkter; data fra svak linsing krever vanligvis full kovarians.

XV. Foreslått leserute og innganger for sitering

1. Les først del I–III for å etablere P1s spørsmål og den avgrensede rollen EFT får i P1.

2. Se deretter på figur S3 og S4 samt tabell S1a/S1b for å forstå lukkingsstyrke, felles tilpasning og negative kontroller.

3. Hvis du er bekymret for at DM-basislinjen er for svak, gå direkte til del X og tabell B1 / figur B1.

4. For teknisk replikasjon, gå tilbake til den tekniske P1-rapporten v1.1, Tables & Figures Supplement og full_fit_runpack.

Hovedinnganger til arkivene

P1 teknisk rapport (publikasjonskvalitet, Concept DOI): 10.5281/zenodo.18526334

Full reproduserbarhetspakke for P1 (Concept DOI): 10.5281/zenodo.18526286

EFTs strukturerte kunnskapsbase (valgfri, Concept DOI): 10.5281/zenodo.18853200

Lisensmerknad: den tekniske rapporten bruker CC BY-NC-ND 4.0; den fulle reproduserbarhetspakken bruker CC BY 4.0 (i tråd med den tekniske rapporten og Zenodo-arkivpostene).

XVI. Referanser og ekstern bakgrunn

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.

122.205 (+0.000)

121.236 (-0.969)

121.531 (-0.674)

129.454 (+7.249)

121.978 (-0.227)

122.056 (-0.149)

122.205 (+0.000)

105.690 (-16.515)

204.620 (+82.415)