← Eksperiment

Energi-tråd-teori (Energy Filament Theory, EFT): rammeverk for gjennomsnittsgravitasjon sammenlignet med minimal NFW-baseline for kald mørk materie (DM)

Forfatter: Guanglin Tu
E-post: riniky@energyfilament.org | ORCID: 0009-0003-7659-6138
Tilknytning: EFT-arbeidsgruppen, Shenzhen Energy Filament Science Research Co., Ltd. (Kina)
Versjon: v1.1 | Dato: 2026-02-14

Preprint (ikke fagfellevurdert) | Denne versjonen er beregnet på offentlig formidling og etterprøvbarhet; den representerer ikke den endelige tidsskriftversjonen.

Lisens: rapport (CC BY-NC-ND 4.0); fullstendig reproduksjonspakke (CC BY 4.0).

Publikasjonsklar rapport (Concept DOI): https://doi.org/10.5281/zenodo.18526334
Fullstendig reproduksjonspakke (Concept DOI): https://doi.org/10.5281/zenodo.18526286

I. Sammendrag (Executive Summary)

Denne rapporten er den komplette arkivutgaven på publikasjonsnivå som er deponert på Zenodo. Den gir én sammenhengende og auditbar kjede fra data, modellregnskap og rettferdig sammenligning til lukketest og reproduksjonsmateriale. Tillegg B (P1A) fungerer som et robusthetstillegg: der stresstestes en mer standard DM-baseline sammen med en sentral systematisk linsefeil, for å undersøke hvor følsomme hovedkonklusjonene er for mer realistisk DM-modellering og behandling av linse-systematikk.

Kjernefunn (fire setninger som kan siteres direkte; se § III.IV):

(1) I tilpasningene av rotasjonskurver (RC) gjør EFT-familien det klart bedre enn DM_RAZOR for alle kombinasjoner av kjernefunksjon og prior; en typisk forbedring er Δlog𝓛_RC ≈ 10^3 (se tabell S1a).
(2) I RC→GGL-lukketesten gir EFT sterkere overførbarhet mellom prober: lukkestyrken Δlog𝓛_closure (True−Perm) ligger betydelig over DM_RAZOR, og forskjellen er robust under skanninger av kovarians-shrinkage, R_min og σ_int (se figur S3 og tabell S1b).
(3) I den felles tilpasningen (RC+GGL) beholder EFT et stabilt fortrinn; under den negative kontrollen, der den delte avbildningen brytes, kollapser fortrinnet. Dette støtter tolkningen av at effekten av gjennomsnittsgravitasjon kommer fra den delte avbildningen og ikke fra tilfeldig overtilpasning (se figur S4).
(4) Tillegg B (P1A) stresstester DM-siden med mer standard DM-baselinemoduler og én sentral nuisance-parameter for linse-systematikk, uten å øke dimensjonen vesentlig. Disse utvidelsene fjerner ikke EFTs lukke-fortrinn (se tabell B1 og figur B1).

Tilgjengelighet for data og kode: rapportens Concept DOI er 10.5281/zenodo.18526334; den fullstendige reproduksjonspakkens Concept DOI er 10.5281/zenodo.18526286. Etikettene for Tillegg B (P1A) er run_tag=20260213_151233, closure_tag=20260213_161731 og joint_tag=20260213_195428.

II. Abstrakt

Vi gjennomfører en reproduserbar kvantitativ sammenligning av to teoretiske rammeverk, på de samme dataene og under den samme statistiske protokollen: modellen for «korreksjon av gjennomsnittsgravitasjon» i Energi-tråd-teori (Energy Filament Theory, EFT; ikke å forveksle med den vanlige forkortelsen Effective Field Theory), og en baselinemodell med NFW-haloer i kald mørk materie (DM_RAZOR). DM_RAZOR er bevisst valgt som en «minimal DM-baseline»: en NFW-halo med fast c–M-relasjon og uten halo-til-halo-spredning, slik at sammenligningen blir auditbar og etterprøvbar. Samtidig må det understrekes at EFT i denne artikkelen behandles som en fenomenologisk, MOND-lignende parameterisering av et Effektivt felt eller en effektiv respons, testet innenfor én felles statistisk protokoll; den mikrofysiske førsteprinsippsutledningen av EFT gis ikke her.

Datagrunnlaget omfatter 2295 hastighetspunkter fra SPARC-rotasjonskurver (104 galakser, 20 RC-bins) etter enhetlig forhåndsbehandling og binning, samt den ekvivalente overflatetettheten ΔΣ(R) fra KiDS-1000 galakse–galakse svak linseeffekt (GGL): 4 bins i stjernemasse, med 15 R-punkter per bin, altså 60 punkter totalt, analysert med full kovarians.

Vi utfører i tur og orden RC-only-inferens, RC→GGL-lukketest (closure), GGL-only-inferens og felles RC+GGL-inferens. En konsistensaudit gjør alle siterte tall sporbare. Under et strengt parameterregnskap og en fast delt avbildning (DM: 20 log M200_bin-parametere; EFT: 20 log V0_bin-parametere pluss én global log ℓ) gjør EFT-familien det klart bedre enn DM_RAZOR i den felles tilpasningen: ΔlogL_total = 1155–1337 relativt til DM_RAZOR. Enda viktigere viser lukketesten at RC-posterioren har ikke-triviell prediksjonskraft for GGL. For EFT er ΔlogL_closure = 172–281, mot 127 for DM_RAZOR; når RC-bin→GGL-bin-grupperingen stokkes tilfeldig, faller lukkesignalet til 6–23. Det bekrefter at signalet ikke er statistisk tilfeldighet eller implementasjonsbias. Ved systematiske skanninger av σ_int, R_min og kovarians-shrinkage forblir EFTs relative fortrinn positivt og stabilt i størrelsesorden. For å møte den vanlige innvendingen om at DM-baselinen er for svak eller at systematiske feil blir lest som fysikk, gir vi i Tillegg B (P1A) en sterkere, men fortsatt lavdimensjonal og auditbar DM-baseline-stresstest, med hierarkisk c–M scatter + prior, en énparameter core-proxy, lensing m og kombinasjonsmodellen DM_STD. Under samme lukkeprotokoll fjerner ikke disse utvidelsene EFTs fortrinn (se tabell B1/figur B1).

Nøkkelord: rotasjonskurver; galakse–galakse svak linseeffekt; lukketest; EFT; kald mørk materie; bayesiansk inferens

III. Innledning og oversikt over resultatene

Rotasjonskurver (RC) og galakse–galakse svak linseeffekt (GGL) er to komplementære gravitasjonsprober. RC avgrenser det dynamiske potensialet og radialakselerasjonsrelasjonen (RAR) inne i skiven, mens GGL måler den projiserte massefordelingen og gravitasjonsresponsen på haloskala. For enhver kandidatmodell er hovedspørsmålet ikke om den kan tilpasse de to datasettene hver for seg, men om den kan forklare dem konsistent under én avbildning på tvers av data og ett sett delte begrensninger.

Derfor står «lukketesten» (closure test) sentralt i denne artikkelens statistiske protokoll. Først bruker vi RC-only-posterioren til å forutsi GGL fremover. Deretter sammenligner vi med en negativ kontroll der RC-bin→GGL-bin-avbildningen permuteres eller stokkes. Slik måler vi prediktiv overførbarhet mellom datasett og utelukker pseudosignaler som skyldes implementasjonsbias eller tilfeldig tilpasning.

Teoretisk posisjon og avgrensning: Denne artikkelen forsøker ikke å gi en mikrofysisk førsteprinsippsutledning av EFT eller en relativistisk komplett form. I stedet behandler vi EFT som en lavdimensjonal, MOND-lignende parameterisering av et effektivt felt eller en effektiv respons, beskrevet av en kjernefunksjon f(x) og en global skala ℓ. Innenfor et strengt parameterregnskap tester vi, gjennom RC→GGL-lukketesten, konsistens på tvers av data og prediktiv overførbarhet.

Forskningsprogram og avgrensning: Denne artikkelen er del av et løpende P-serieprogram for observasjonelle søk. I eksisterende data på galakseskala leter vi etter to mulige effektive bakgrunnsbidrag: (i) et «gravitasjonsgulv» (mean gravity floor) som kan beskrives som en grovkornet gjennomsnittlig gravitasjonsrespons, og (ii) et «støygulv» (stochastic/noise floor) knyttet til fluktuasjoner i mikroskopiske prosesser. I denne artikkelen (P1) fokuserer vi bare på det første: uten å anta noen konkret mikrofysisk produksjonsmekanisme søker vi via RC→GGL-lukketesten etter observasjonelle tegn på et gjennomsnittlig gravitasjonsgulv og sammenligner dette med en auditbar DM-baseline under én felles kontrollprotokoll. Som heuristisk bilde: dersom kortlivede frihetsgrader finnes, kan henfall eller annihilasjon omdanne hvilemasse til energi-impuls båret av andre frihetsgrader; på effektivt nivå svarer dette naturlig til en dekomponering i «middelbidrag + fluktuasjonsbidrag». Denne artikkelen modellerer imidlertid ikke dette mikrobildet kvantitativt.

For å unngå overtolkning gjelder følgende avgrensning:
• Hva artikkelen gjør: Under et strengt parameterregnskap og en delt avbildning måler den prediktiv overførbarhet mellom datasett med en lukketest, og sammenligner EFTs gjennomsnittlige gravitasjonsrespons reproduserbart med en DM-baseline.
• Hva artikkelen ikke gjør: Den diskuterer ingen mikrofysisk produksjonsmekanisme, abundans, levetid eller kosmologiske begrensninger; den modellerer heller ikke en stokastisk term knyttet til «støygulvet».
• Hva artikkelen ikke påstår: Målet er ikke å avvise mørk materie; P1 gir ingen endelig dom om hvorvidt et «gulv» finnes, men rapporterer et fasebestemt evidensbilde: innenfor det robuste måledomenet valgt her foretrekker dataene modeller som inneholder en gjennomsnittlig gravitasjonsrespons.

Vi presiserer samtidig at DM_RAZOR bare representerer en minimal og auditbar NFW-baseline: fast c–M, ingen scatter, ingen Adiabatic Contraction, ingen feedback-core, ingen ikke-sfæriske ledd og ingen miljøledd. Hovedkonklusjonen i teksten er derfor strengt avgrenset til dette: under den minimale baselinen og de strenge begrensningene i parameterregnskap og avbildning har EFT sterkere konsistens på tvers av data. For å besvare et vanlig spørsmål — om en mer standard ΛCDM-baseline og modellering av sentral linse-systematikk vesentlig kan endre konklusjonen — samler vi mer standard, men fortsatt lavdimensjonale og auditbare DM-utvidelser samt en nuisance-parameter på linsesiden i Tillegg B (P1A: standardisert DM-baseline-stresstest), med samme delte avbildning og samme definisjon av lukketest som i hovedteksten (se tabell B1/figur B1).

III.I Tab S1a–S1b: nøkkelindikatorer samlet (Strict)

Tabell S1a gir hovedindikatorene for den felles tilpasningen (RC+GGL): logL, ΔlogL, AICc og BIC. Tabell S1b gir indikatorer for lukketesten og robusthetsskanningene: closure, shuffle som negativ kontroll, samt skanningsområder for σ_int / R_min / cov-shrink. Alle tall kommer fra den strenge hovedtabellen Tab_Z1_master_summary og kan spores punkt for punkt i den publiserte arkivpakken.

Tabell S1a|Hovedindikatorer for felles tilpasning (RC+GGL, Strict).

Modell (workspace)

W-kjerne

k

Felles logL_total (best)

ΔlogL_total vs DM

AICc

BIC

DM_RAZOR

none

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

none

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponential

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabell S1b|Lukking og robusthetsindikatorer (Strict).

Modell (workspace)

Lukking ΔlogL (true-perm)

ΔlogL etter negativ-kontroll shuffle

ΔlogL-område ved σ_int-skanning

ΔlogL-område ved R_min-skanning

ΔlogL-område ved cov-shrink-skanning

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308


III.II Fig. S3: lukkestyrke (RC-only → forutsagt GGL)

Lukkestyrken defineres som ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩: På posteriorprøver fra RC-only forutsies GGL fremover, og resultatet sammenlignes med en negativ kontroll der RC-bin→GGL-bin-avbildningen permuteres.

Figur S3|Lukkestyrke (høyere er bedre): gjennomsnittlig log-likelihood-fortrinn for RC-only → GGL-prediksjon.


III.III Fig. S4: hovedsammenligning i felles tilpasning (RC+GGL)

Fortrinnet i felles tilpasning defineres som ΔlogL_total ≡ logL_total(model) − logL_total(DM_RAZOR). Med samme data, samme avbildning og tilnærmet samme parameteromfang oppnår EFT-familien betydelig høyere felles log-likelihood.

Figur S4|Fortrinn i felles tilpasning (høyere er bedre): best logL_total for RC+GGL relativt til DM_RAZOR.


III.IV Fire konklusjoner (kan siteres direkte)

(1) I en samlet analyse av SPARC-rotasjonskurver og KiDS-1000 svak linseeffekt gjør EFT-rammeverkets modeller for gjennomsnittsgravitasjon det systematisk bedre enn DM_RAZOR under en streng kontrollprotokoll: ΔlogL_total = 1155–1337 relativt til DM_RAZOR.

(2) RC→GGL-lukketesten viser at EFT har sterkere prediktiv konsistens: ΔlogL_closure = 172–281, mens DM_RAZOR ligger på 127. Når RC-bin→GGL-bin-grupperingen stokkes tilfeldig, faller lukkesignalet til 6–23. Det viser at signalet avhenger av korrekt avbildning på tvers av data, ikke av tilfeldig tilpasning.

(3) Systematiske skanninger av σ_int, R_min og kovarians-shrinkage endrer verken fortegnet eller størrelsesordenen i «EFT bedre enn DM_RAZOR», noe som viser at konklusjonen er robust mot vanlige systematiske forstyrrelser.

(4) Tillegg B (P1A) styrker DM-baselinen på en «standardisert og auditbar» måte under samme lukkeprotokoll: tre énparameterutvidelser (SCAT/AC/FB) beholdes, og hierarkisk c–M scatter + prior, en énparameter core-proxy og shear-kalibrering m på linsesiden (samt kombinasjonen DM_STD) legges til. Resultatet er at bare feedback/core-grenen gir en liten nettoøkning i lukkestyrke (122.21→129.45, ΔΔlogL_closure≈+7.25); de øvrige utvidelsene gir ikke-signifikant eller negativt bidrag til lukkestyrken. Hovedkonklusjonen i teksten er derfor ikke avhengig av at DM_RAZOR skulle være for svak.

IV. Data og forhåndsbehandling

Studien bruker to typer åpne data. Nedlasting, kontroll (sha256) og forhåndsbehandling er utført i prosjektet med sporbare skript. For å sikre en rettferdig sammenligning mellom modeller deler alle arbeidsområder (EFT_BIN / EFT_WEXP / EFT_WYUK / EFT_WPOW / DM_RAZOR) nøyaktig de samme dataproduktene og den samme bin-avbildningen.


IV.I Rotasjonskurver (RC, SPARC)

RC-dataene kommer fra SPARC-databasens Rotmod_LTG (175 rotmod-filer). Etter forhåndsbehandling inngår 104 galakser i modelleringen, med totalt 2295 datapunkter (r, V_obs), delt inn i 20 RC-bins etter blant annet stjernemasse. Hvert datapunkt inneholder radius r (kpc), observert hastighet V_obs (km/s), usikkerhet σ_obs og hastighetskomponenter fra gass, skive og bul (V_gas, V_disk, V_bul).


IV.II Svak linseeffekt (GGL, KiDS-1000 / Brouwer+2021)

GGL-dataene bruker ekvivalent overflatetetthet ΔΣ(R) fra figur 3 hos Brouwer et al. (2021) på KiDS-1000: 4 stjernemasse-bins, 15 R-punkter per bin, og full kovarians. I prosjektet bygges den opprinnelige long-form-kovariansen om til en 15×15-matrise for hver bin, og i Stage-B-auditen kontrolleres både dimensjoner og numerisk rimelighet.


IV.III RC-bin → GGL-bin-avbildning og samlet utvalgsstørrelse

De 4 masse-binene i GGL kobles til de 20 RC-binene gjennom en fast avbildning: hver GGL-bin svarer til 5 RC-bins, og bidragene fra RC-binene vektlegges etter antall galakser. Denne avbildningen holdes uendret i alle modeller og er en kjernebegrensning for rettferdig sammenligning i både lukketest og felles tilpasning. Det endelige antallet datapunkter i den felles analysen er n_total = 2355 (RC=2295, GGL=60).

V. Modeller og statistiske metoder


V.I Minimal matematisk spesifikasjon for EFT og DM (auditbar/testbar)

Denne delen gir den minimale matematiske spesifikasjonen som kan kobles direkte til implementasjonen.

a) Modell for rotasjonskurver (RC)

For hvert RC-datapunkt (r, V_obs, σ_obs) bruker vi komponentaddisjon: V_mod²(r) = V_bar²(r) + V_extra²(r). Her er V_bar²(r) = V_gas²(r) + Υ_d·V_disk²(r) + Υ_b·V_bul²(r). I hovedresultatene bruker vi Υ_d = Υ_b = 0.5, i tråd med SPARCs empiriske anbefalinger og for å redusere unødvendige frihetsgrader.

b) EFT-korreksjon for gjennomsnittsgravitasjon (EFT)

EFTs ekstra ledd parameteriseres som «gjennomsnittlig hastighet i kvadrat»: V_extra²(r) = V0_bin² · f(r/ℓ). Her er V0_bin amplituden for hver RC-bin (20 parametere), ℓ er en global skala (1 parameter), og f(x) er en dimensjonsløs kjerneformfunksjon. Kjerneformene som sammenlignes her, uten ekstra kontinuerlige frihetsgrader, er:

Fysisk motivasjon (utvidet): EFT tolker den ekstra gravitasjonsresponsen på galakseskala som en effektiv respons etter grovkornet eller skala-gjennomsnittlig behandling av mer mikroskopiske virkninger på endelige skalaer. I denne artikkelen antar vi ingen bestemt mikrofysisk mekanisme; vi bruker i stedet en minimal og auditbar parameterisering for kontrollert sammenligning og testing under én felles statistisk protokoll.

For intuitiv forståelse kan det ekstra leddet skrives som en akselerasjon: a_extra(r)=V_extra²(r)/r=(V0_bin²/r)·f(r/ℓ). Når r≫ℓ, går f→1 og V_extra→V0_bin, som gir et tilnærmet flatt ekstra hastighetsbidrag i ytre områder. Når r≪ℓ og f(x)≈x, kan man innføre en karakteristisk akselerasjonsskala a0,bin≈V0_bin²/ℓ, opp til en O(1)-faktor fra kjernefunksjonen. Dette gir en MOND-lignende skalaintuisjon for overgangen mellom indre og ytre områder.

Den diskrete kjernefamilien som brukes her (none/exponential/yukawa/powerlaw_tail), kan ses som lavdimensjonale proxyer for ulike «starthelninger», overgangshastigheter og langtrekkende haler — for eksempel Yukawa-lignende skjerming kontra respons med lengre hale. De brukes til robusthetsstresstesting, ikke til å uttømme modellrommet. I delen om svak linseeffekt konstruerer vi en ekvivalent innhyllingsmasse og tetthet fra V_avg(r) og projiserer dette til ΔΣ(R). Denne effektive tettheten må forstås som en beskrivelse av linsepotensialet under antakelser om sfærisk symmetri og svak-felt-avbildning; fullstendige detaljer er flyttet til Tillegg A.

Alle kjerneformene ovenfor oppfyller f(x)→1 når x→∞, altså at V_extra² mettes mot V0². For x≪1 gir de lineær eller sublineær vekst: for eksempel exponential: f≈x; yukawa: f≈0.5x; powerlaw_tail: f≈0.5x. Ulike kjerneformer gir derfor observerbare forskjeller i liten radius, i overgangshastighet og i ytre hale, og disse forskjellene kan skilles gjennom felles RC+GGL-tilpasning og lukketest.

EFT-prediksjonen for svak linseeffekt ΔΣ(R) hentes ved å regne tilbake innhyllingsmasse og tetthet fra V_avg(r), og deretter projisere: M_enc(r)=r·V_avg²(r)/G, ρ(r)=(1/4πr²)·dM_enc/dr, Σ(R)=2∫_R^∞ ρ(r)·r/√(r²−R²) dr, ΔΣ(R)=Σ̄(<R)−Σ(R). Den numeriske implementasjonen bruker et logaritmisk rutenett og adaptiv fortetting ved avvik, for å sikre stabilitet og reproduserbarhet.

c) DM_RAZOR: NFW-baseline for kald mørk materie-halo

Vi presiserer samtidig at DM_RAZOR bare representerer en minimal og auditbar NFW-baseline: fast c–M, ingen scatter, ingen Adiabatic Contraction, ingen feedback-core, ingen ikke-sfæriske ledd og ingen miljøledd. For å redusere risikoen for en «strawman baseline» hevder vi ikke at slike effekter ikke finnes. Tvert imot legger vi dem inn i Tillegg B (P1A) som lavdimensjonale og auditbare stresstester, blant annet hierarkisk behandling av c–M scatter, en core-proxy og en nuisance-parameter for shear-kalibrering på linsesiden.


V.II Modellregnskap og rettferdig sammenligning (delte parametere = definisjonen av lukking)

Antallet parametere i hovedsammenligningen er: DM_RAZOR k=20; EFT-familien k=21, der den ene ekstra parameteren er global log ℓ. Alle modeller deler de samme RC-dataene, de samme GGL-dataene og kovariansen, den samme RC-bin→GGL-bin-avbildningen, den samme baryoniske komponenten og de samme enhetskonverteringene. Kjerneformen (none / exponential / yukawa / powerlaw_tail) er dessuten et diskret valg og innfører ingen ekstra kontinuerlige parametere. Dermed unngås et fortrinn som bare skyldes «én frihetsgrad mer».


V.III Likelihood, priorer og sampler

RC-likelihooden er diagonal gaussisk: σ_eff² = σ_obs² + σ_int². I hovedresultatene settes σ_int=5 km/s, og i Run-5 skannes σ_int. GGL-likelihooden er en full kovarians-gaussisk for hver bin: logL_GGL = Σ_b log 𝒩(ΔΣ_obs^b | ΔΣ_mod^b, C_b). Det felles målet er logpost(θ)=logprior(θ)+logL_RC(θ)+logL_GGL(θ). Priorene uttrykker i hovedsak fysiske gjennomførbarhetsgrenser, som intervallbegrensninger for log ℓ, log V0 og log M200; når fri Υ og σ_int aktiveres, brukes svakt informative priorer (se implementasjonen og release-pakkens konfigurasjon).

Sampleren er en adaptiv block Metropolis random-walk. I hvert steg oppdateres bare en tilfeldig underblokk av parameterrommet for å bedre aksept i høy dimensjon, og steglengden justeres lett etter akseptraten i et vindu (målaksept omtrent 0.25). Hovedresultatene bruker quick-modus (blant annet n_steps=800), og hvert arbeidsområde skriver ut trace, residualer og PPC-figurer for manuell og skriptbasert audit.


V.IV Lukketest og negativ kontroll (definisjon)

Lukketesten (Run-2) undersøker, uten å tilpasse GGL på nytt, om «RC-only-posterioren kan forutsi GGL». Konkret genererer vi ΔΣ(R) for de 4 GGL-binene fremover fra RC-only-posteriorprøver og beregner logL_true med full kovarians. Deretter permuteres RC-bin→GGL-bin-gruppeavbildningen for å få logL_perm. Lukkestyrken defineres som ΔlogL_closure≡⟨logL_true⟩−⟨logL_perm⟩. I tillegg stokker Run-10 de 20 RC-binene tilfeldig om til 4×5 og beregner lukking på nytt, for å teste hvor avhengig lukkesignalet er av korrekt avbildning.

VI. Hovedresultater og tolkning


VI.I Hovedresultater fra felles tilpasning (RC+GGL)

Den beste logL_total i den felles tilpasningen og det relative fortrinnet ΔlogL_total (mot DM_RAZOR) vises i tabell S1a og figur S4. I hovedsammenligningen har EFT_BIN det største felles fortrinnet (ΔlogL_total=1337.210), mens de øvrige EFT-kjerneformene også beholder et tydelig fortrinn (1154.827–1294.442). Etter informasjonskriteriene AICc/BIC er EFT-familien også klart bedre enn DM_RAZOR, noe som viser at fortrinnet ikke skyldes parameterantallet.

Merk: Hovedbidraget til ΔlogL_total≈1337 kommer fra RC-leddet (i joint-dekomponeringen er ΔlogL_RC≈1065, omtrent 80 %). Dette kan forstås som at en moderat forbedring på Δχ²≈0.90 per punkt over N=2295 RC-datapunkter naturlig akkumuleres til et fortrinn i størrelsesorden 10^3 under en diagonal gaussisk likelihood. Samtidig gir GGL og lukketesten uavhengige begrensninger på tvers av datasett, og rangeringen holder seg stabil under stresstester av σ_int, R_min og cov-shrink (se § VII og tabell S1b).


VI.II Resultater fra lukketesten (RC-only → GGL)

Nøkkelstørrelsen i lukketesten, ΔlogL_closure, vises i tabell S1b og figur S3. For EFT-familien er lukkestyrken 171.977–280.513, høyere enn DM_RAZORs 126.678. Det betyr at EFTs posteriorprøver fra RC-data har sterkere prediktiv overførbarhet til GGL-data uten at noen ekstra frihetsgrader på tvers av data tillates.

Den negative kontrollen støtter videre den fysiske relevansen av lukkesignalet. Når RC-bin→GGL-bin-grupperingen stokkes tilfeldig, faller EFTs lukkestyrke til 6–15, med små forskjeller mellom kjerner, mens baselinens lukkestyrke i korrekt avbildning ligger høyt. Denne «signalkollapsen» utelukker et kunstig fortrinn fra numerisk implementasjon, enhetsfeil eller feil kovariansbehandling.

Figur R1|Negativ kontroll: lukkesignalet reduseres markant etter shuffle-gruppering (tegnet fra Tab_Z1-indikatorer).


VI.III Hva resultatene betyr, og hva de ikke betyr

Konklusjonen i denne studien er at «under dette datasettet og denne protokollen gjør EFTs gjennomsnittlige gravitasjonskorreksjon det bedre enn den testede DM_RAZOR-baselinen». Det er viktig å understreke at DM-siden bare bruker en minimal NFW-baseline og en fast c(M)-relasjon, uten for eksempel core-dannelse, ikke-sfærisk form, miljøledd eller mer komplekse modeller for galakse–halo-kobling. Denne artikkelen hevder derfor ikke å utelukke alle DM-modellfamilier. Den gir i stedet en reproduserbar kontrollbaseline med lukketesten som sentrum, for å vurdere om RC og GGL kan forklares konsistent med det samme settet av parametere og avbildninger på tvers av data.

For å svare på denne vanlige innvendingen har vi gjennomført et separat utvidelsesprosjekt, P1A (se Tillegg B). Uten å endre den delte RC-bin→GGL-bin-avbildningen eller auditrammeverket styrker prosjektet DM-baselinen på en «standardisert og auditbar» måte: I tillegg til tre énparameterutvidelser (SCAT/AC/FB) innføres (i) hierarkisk c–M scatter + mass–concentration-prior (DM_HIER_CMSCAT), (ii) en énparameter baryonic-feedback core-proxy (DM_CORE1P) og (iii) en nuisance-parameter m for shear-kalibrering på linsesiden (DM_RAZOR_M), samt kombinasjonsmodellen DM_STD. EFT_BIN beholdes samtidig som kontrollreferanse.

• DM_RAZOR_SCAT (c–M scatter) — innfører en parameter σ_logc for halo-til-halo-spredning i konsentrasjon, for å teste om fast c(M) systematisk undervurderer DMs forklaringskraft;
• DM_RAZOR_AC (Adiabatic Contraction) — bruker én parameter α_AC til å interpolere kontinuerlig mellom «ingen kontraksjon» og «standard kontraksjon», for å fange den indre kontraksjonen baryoner kan gi, med minimal kostnad;
• DM_RAZOR_FB (Feedback / core) — bruker en core-skala, for eksempel log r_core, til å beskrive hvordan core-dannelse i indre områder demper rotasjonskurven, samtidig som NFW-tilnærmingen beholdes på svak-linseeffekt-skala.

P1As kvantitative scoreboard vises i Tillegg B, tabell B1 / figur B1, automatisk generert fra Tab_S1_P1A_scoreboard. På lukkeindikatoren gir DM_RAZOR_FB en liten nettoøkning (122.21→129.45, +7.25), mens de øvrige utvidelsene gir ikke-signifikante eller negative bidrag til lukkestyrken. På siden for felles tilpasning kan hierarkisk c–M scatter-prior (DM_HIER_CMSCAT) eller kombinasjonsmodellen (DM_STD) forbedre joint logL betydelig, men uten å øke lukkestyrken. Det tyder på at forbedringen hovedsakelig øker fleksibiliteten i felles tilpasning, ikke overførbarheten mellom prober. Kjernekonklusjonen i hovedteksten bør derfor forstås slik: Under strengt delt avbildning og lukketest er EFTs fortrinn i konsistens på tvers av data ikke et resultat av at DM-siden er valgt som en «for svak baseline». P1A-publiseringspakken for Tillegg B, med tilleggstabeller/figurer og full_fit_runpack, vil bli lagt inn som ekstra filer under samme Zenodo Concept DOI som denne artikkelens full_fit_runpack: https://doi.org/10.5281/zenodo.18526286.

VII. Robusthet og kontrolleksperimenter


VII.I σ_int-skanning (Run-5)

Vi skanner RCs intrinsiske spredning σ_int systematisk. For hver verdi av σ_int gjentas den felles inferensen, og ΔlogL_total relativt til DM_RAZOR beregnes. Minimums- og maksimumsverdiene for ΔlogL_total innenfor skanningsområdet for hver modell er vist i tabell S1b.

Figur R2|Område for ΔlogL_total under σ_int-skanning (høyere er bedre).


VII.II R_min-skanning (Run-6)

For å teste innvirkningen fra systematiske feil i sentrale områder — for eksempel ikke-sirkulære bevegelser, oppløsning og ufullstendig baryonmodellering — trimmer vi RC-data med en R_min-terskel og gjentar den felles inferensen. EFT-familiens fortrinn forblir positivt og stabilt i størrelsesorden under R_min-skanningen.

Figur R3|Område for ΔlogL_total under R_min-skanning (høyere er bedre).


VII.III cov-shrink-skanning (Run-7)

For å teste usikkerhet i GGL-kovariansen påfører vi shrinkage på kovariansmatrisen i hver masse-bin: C_α=(1−α)C+α·diag(C), og skanner α. Resultatene viser at EFT-familiens fortrinn er lite følsomt for denne behandlingen.

Figur R4|Område for ΔlogL_total under cov-shrink-skanning (høyere er bedre).


VII.IV Ablasjonsstige (Run-8)

Innenfor EFT_BIN utfører vi nestet ablasjon: fra en minimal modell uten frie parametere, via modeller med bare noen få frihetsgrader, til den fullstendige modellen med 20-bin-amplitude + global skala. AICc/BIC viser at den fullstendige EFT_BIN er klart nødvendig for å forklare dataene.

Figur R5|Ablasjonsstige for EFT_BIN (AICc, lavere er bedre).


VII.V Hold-out-prediksjon (Run-9)

Vi utfører også en leave-one-bin-out-test (LOO): Av de 4 masse-binene i GGL holdes én bin ute om gangen. De øvrige binene, sammen med alle RC-data, brukes til ny inferens, og test-log-likelihood evalueres på den utelatte binen. Sammendragsindikatorer finnes i tilleggstabellen Tab_R3_leave_one_bin_out (Run-9-produkt; filbanemønsteret er oppgitt i listen over nøkkelprodukter i § IX.II.II). EFT-familien er fortsatt tydelig bedre enn DM_RAZOR i den svakeste hold-out-situasjonen.

Figur R6|LOO: fordeling av log-likelihood for utelatt bin (fra Run-9-produkter).


VII.VI Negativ kontroll: RC-bin shuffle (Run-10)

Run-10 stokker de 20 RC-binene tilfeldig om til 4×5 og beregner lukking på nytt uten å endre RC-only-posterioren. Resultatet viser at shuffle, sammenlignet med den opprinnelige avbildningen, reduserer både mean logL_true og ΔlogL_closure betydelig (se tabell S1b og figur R1), noe som ytterligere støtter lukkesignalets tolkbarhet.

Figur R7|Negativ kontroll: shuffle-avbildning gir tydelig lavere mean logL_true i lukketesten (fra Run-10-produkter).

VIII. Sporbarhet og konsistensaudit (Provenance)

Alle tall som siteres i denne artikkelen, kan spores punkt for punkt i de strenge sammendragstabellene og auditregistrene i det publiserte arkivet. For å gjøre hovedteksten lettere å lese er den fullstendige sporbarhetskjeden — tag-lister, audittabeller, checksum-lister og kontrollmåter — flyttet til Tillegg A.

IX. Reproduserbarhet og Zenodo-arkiv (Reproducibility & Archive)

Erklæring om data- og kodetilgjengelighet: SPARC-rotasjonskurvene og KiDS-1000-dataene for svak linseeffekt som brukes her, er offentlige data. Den publikasjonsklare rapporten er arkivert på Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526334), og den fullstendige reproduksjonspakken er arkivert på Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526286). Detaljerte kjøretrinn, avhengigheter, arkivlister og hashkontroller finnes i Tillegg A; design, kjøre-tags og output for den standardiserte DM-baseline-stresstesten (P1A) finnes i Tillegg B.

Under samme Concept DOI for den fullstendige reproduksjonspakken (https://doi.org/10.5281/zenodo.18526286) tilbyr vi to reproduserbare innganger, hver med sitt formål:
• P1 (hovedtekst) full_fit_runpack: reproduserer RC-only / closure / joint og robusthetsskanningene for EFT vs DM_RAZOR, og genererer aktiva som tabell S1a/S1b og figur S3/S4 i hovedteksten;
• P1A (Tillegg B) full_fit_runpack: reproduserer den standardiserte DM-baseline-stresstesten (SCAT/AC/FB + hierarkisk c–M scatter-prior + core1p + lensing m + DM_STD, inkludert EFT_BIN-kontroll), og genererer tabell B1 og figur B1 i tillegget.
P1A-tilleggstabeller/figurer og full_fit_runpack legges inn som ekstra filer under samme Concept DOI, slik at én samlet arkivinngang bevares.

X. Takk og erklæringer


X.I Takk

Vi takker SPARC- og KiDS-1000-teamene for åpne data og dokumentasjon, og deltakerne som bidro til rekonstruksjons- og auditflyten i dette prosjektet.


X.II Forfatterbidrag

Guanglin Tu hadde ansvar for idégrunnlaget, studiedesign, teknisk implementasjon, dataorganisering, formell analyse, implementering av reproduksjonsflyten og audit, samt skrivingen av artikkelen.


X.III Finansiering

Guanglin Tu finansierte arbeidet personlig (ingen ekstern finansiering / intet stipend- eller prosjektnummer).


X.IV Interessekonflikter

Guanglin Tu har en tilknytning til «EFT Working Group, Shenzhen Energy Filament Science Research Co., Ltd. (China)»; ingen andre konkurrerende interesser oppgis.


X.V AI-assistanse

OpenAI GPT-5.2 Pro og Gemini 3 Pro ble brukt til språklig finpuss, strukturert redigering og sammenstilling av reproduksjonsflyten. De ble ikke brukt til å generere eller endre data, resultater, figurer eller kode, og ikke til å generere referanser. Forfatteren har det fulle ansvaret for innholdet i teksten og nøyaktigheten i referansene.

XI. Referanser

Tillegg A: detaljer om sporbarhet og reproduserbarhet

Dette tillegget samler informasjon om sporbarhet og reproduserbarhet for langtidsarkivering, blant annet kjøre-tags, auditresultater, arkivlister og kontrollpunkter, slik at leseren kan kontrollere og reprodusere resultatene ved behov.


A.I Sporbarhet og auditdetaljer

For å sikre langsiktig sporbarhet bruker prosjektet tidsstemplede tags for hver kjøring og hvert output, og bevarer historiske produkter uten å overskrive dem. Kjerneverdiene som siteres i denne artikkelen, kommer fra den strenge sammendragstabellen (compile_tag=20260205_035929) og er kontrollert gjennom følgende konsistensaudit:

• Alle deltabeller er merket med run_tag og fase-tag; det strenge sammendragsskriptet velger canonical-tabellkilder fra report/tables som er komplette og konsistente.

• Tallene i Tab_Z1_master_summary og Tab_Z2_conclusion_highlights er sammenlignet punkt for punkt med de valgte canonical-tabellene.

• Ved generering av PDF utføres en tag-audit for tabeller og figurer som siteres, slik at gamle produkter ikke blandes inn.

Nøkkel-tags (for å finne alle mellomprodukter): run_tag=20260204_122515; closure_tag=20260204_124721; joint_tag=20260204_152714; sigma_sweep_tag=20260204_161852; rmin_sweep_tag=20260204_195247; covshrink_tag=20260204_203219; ablation_tag=20260204_214642; LOO_tag=20260204_224827; negctrl_tag=20260204_234528; strict_compile_tag=20260205_035929; release_tag=20260205_112442.

Konsistensauditresultat: Tab_AUDIT_checks_strict viser pass=9, fail=0, skip=0 (se release-pakken for detaljer).


A.II Reproduserbarhetssteg og arkivliste

Studien bruker et reproduksjonssystem bestående av en publikasjonsklar rapport, tabell- og figurtillegg og en full kjøre-pakke som kan kjøres på nytt. Leseren kan kontrollere alle tabeller og figurer sitert i teksten direkte i Tables & Figures Supplement. For å reprodusere tallene og auditkjeden fra bunnen av kan full_fit_runpack brukes til å laste ned data og kjøre hele flyten på nytt; etter kjøringen kan tabellverdiene valideres mot pakkens reference-tabeller med kontrollskriptet.


A.II.I Reproduksjon Quickstart (RUN_FULL, Windows PowerShell)

Denne delen gir en kortere reproduksjonsvei for Windows PowerShell. For rask kontroll anbefales det å lese Tables & Figures Supplement direkte og sjekke tabeller og figurer punkt for punkt. For end-to-end-reproduksjon som genererer alle tabeller, figurer og auditprodukter, bruk full_fit_runpack: følg pakkens README/ONE_PAGE_REPRO_CHECKLIST og kjør verify_checksums.ps1 og RUN_FULL.ps1 (anbefalt Mode=full).

Zenodo-arkivinngang (Concept DOI): https://doi.org/10.5281/zenodo.18526286.
Hovedkjedens tags i denne artikkelen: run_tag=20260204_122515, strict compile_tag=20260205_035929, release_tag=20260205_112442.


A.II.II Arkivmateriale og nøkkelkontroller (Packages & checks)

Zenodo-arkivet gir tre komplementære materialtyper: (1) publikasjonsklar rapport (denne teksten, v1.1, inkludert Tillegg B: P1A standardisert DM-baseline-stresstest); (2) Tables & Figures Supplement (tabell- og figurtillegg, som dekker alle tabeller og figurer sitert i teksten, separat for P1 og P1A); og (3) full_fit_runpack (full reproduksjonspakke, som laster ned data fra bunnen av og kjører hele flyten på nytt, separat for P1 og P1A). Punkt (1)–(2) støtter rask lesning og uavhengig kontroll; punkt (3) gir full end-to-end-reproduserbarhet.

Materialkategori

Filnavn (eksempel)

Bruk og plassering (anbefalt rekkefølge for lesere)

Publikasjonsklar rapport (kinesisk og engelsk)

P1_RC_GGL_report_EN_PUBLICATION_V1_1.pdf
P1_RC_GGL_report_CN_PUBLICATION_V1_1.pdf

Komplett rapport arkivert på Zenodo; hovedteksten gir hovedkonklusjoner og robusthetsaudit, mens Tillegg B gir P1A (standardisert DM-baseline-stresstest).

Tables & Figures Supplement (P1)

P1_RC_GGL_supplement_figs_tables_V1_1.zip

Alle tabeller (CSV) og figurer (PNG) som siteres i hovedteksten, inkludert genereringsskript og tag-filer.

Tables & Figures Supplement (P1A)

P1A_supplement_figs_tables_v1.zip

Alle tabeller og figurer som siteres i Tillegg B (P1A), inkludert Tab_S1_P1A_scoreboard og Fig_S1_P1A_scoreboard.

full_fit_runpack (P1)

P1_RC_GGL_full_fit_runpack_v1_1.zip

Full end-to-end-reproduksjon: last ned data fra bunnen av og kjør RC-only/closure/joint samt robusthetsskanningene på nytt.

full_fit_runpack (P1A)

P1A_RC_GGL_full_fit_runpack_v1.zip

End-to-end-reproduksjon for Tillegg B: kjør DM 7+1 + DM_STD (inkludert EFT_BIN-kontroll) på nytt og generer tilleggsaktiva; inneholder et referansetabellskript for validering av tabellverdier.

Siteringsforslag: Når denne artikkelen eller det medfølgende reproduksjonsmaterialet siteres, oppgi Zenodo Concept DOI (https://doi.org/10.5281/zenodo.18526334).

Viktige produkter som skal foreligge etter reproduksjon og kunne sammenlignes, er:

Tillegg B: P1A — standardisert DM-baseline-stresstest (DM 7+1 + DM_STD; med EFT-kontroll)

Dette tillegget dokumenterer et utvidelsesprosjekt (P1A) som bruker samme lukkeprotokoll som hovedteksten: en standardisert stresstest av DM-baselinen. Formålet er å oppgradere den minimale DM_RAZOR-modellen i hovedteksten (NFW + fast c–M, uten scatter/kontraksjon/core) til en baselinefamilie som ligger nærmere astrofysisk praksis og bedre tåler vanlige innvendinger, uten å innføre mange frihetsgrader og uten å endre den delte RC-bin→GGL-bin-avbildningen eller auditrammeverket. P1A dekker og utvider den tidligere tregreinede stresstesten: SCAT/AC/FB beholdes, og hierarkisk c–M scatter + prior, en énparameter core-proxy og en nuisance-parameter m for shear-kalibrering på linsesiden legges til. Kombinasjonsmodellen DM_STD tilbys også, mens EFT_BIN beholdes som kontrollreferanse.

Tilleggsmerknad: Lukkestyrke og andre tall i Tillegg B (P1A) bruker et høyere Monte Carlo-budsjett, for eksempel ndraw=400 og nperm=24, enn quick-budsjettet i hovedteksten, som dekker hele EFT-kjernefamilien, for eksempel ndraw=60 og nperm=12. Absolutte tall kan derfor ha samplingdrift i størrelsesorden O(10). Sammenligninger mellom modeller i samme tabell og med samme budsjett er likevel rettferdige, og fortegn og størrelsesorden på fortrinnet er stabile på tvers av budsjetter.


B.I Formål og plassering (Why P1A, and why as an Appendix)

P1A forsøker ikke å uttømme alle mulige ΛCDM-halomodeller, som ikke-sfærisitet, miljøavhengighet, kompleks galakse–halo-kobling eller høy-dimensjonal baryon physics. I stedet følger P1A prinsippet «lavdimensjonal, auditbar og reproduserbar»: hver utvidelsesmodul innfører høyst én sentral effektiv parameter og forblir under tre harde begrensninger i denne artikkelen:
(i) parameterregnskap: hver ny parameter må bokføres eksplisitt og rapporteres sammen med informasjonskriterier (AICc/BIC);
(ii) delt avbildning: samme RC-bin→GGL-bin-gruppering brukes fortsatt, og det er ikke tillatt å finjustere avbildningen separat for ett datasett;
(iii) lukketest: enhver utvidelse må vise reell gevinst i RC→GGL-overføringsprediksjon, ikke bare bedre RC-only-tilpasning.


B.II DM 7+1 + DM_STD: moduldefinisjoner, parametere og inntreden i felles posterior

Som et uavhengig runpack gir P1A 8 DM-arbeidsområder (DM 7+1) og 1 EFT-kontroll. Med DM_RAZOR som baseline konstrueres tre legacy énparameterutvidelser (DM_RAZOR_SCAT / DM_RAZOR_AC / DM_RAZOR_FB), tre nye defensive moduler som ligger nærmere standard praksis (DM_HIER_CMSCAT / DM_CORE1P / DM_RAZOR_M), og til slutt kombinasjonsmodellen DM_STD. Modulenens felles mål er å dekke de tre vanligste innvendingene med minst mulig ekstra dimensjon: (a) hvordan c–M-spredning og priorer går inn i en hierarkisk modell; (b) om hovedeffekten av baryonic feedback kan tilnærmes med en énparameter core-proxy; og (c) om sentrale systematiske feil på linsesiden kan bli feiltolket som fysisk signal.

Workspace

dm_model

Ny parameter (≤1)

Fysisk motivasjon (kjerne)

Implementeringsprinsipp (auditvennlig)

DM_RAZOR

NFW (fixed c–M, no scatter)

Minimal og auditbar ΛCDM-halo-baseline; brukes til streng sammenligning med EFT

Fast delt avbildning; strengt parameterregnskap; baseline brukes bare til relativ sammenligning

DM_RAZOR_SCAT

NFW + c–M scatter (legacy)

σ_logc

Det finnes spredning i c–M-relasjonen; tilnærmet med én lognormal scatter-parameter

≤1 ny parameter; delt avbildning beholdes; lukkegevinst er akseptkriteriet

DM_RAZOR_AC

NFW + Adiabatic Contraction (legacy)

α_AC

Baryonisk innfall kan gi halokontraksjon; én parameter tilnærmer styrken

≤1 ny parameter; avbildningen beholdes; endring i AICc/BIC og lukkegevinst rapporteres

DM_RAZOR_FB

NFW + feedback core (legacy)

log r_core

Feedback kan danne en core i indre områder; én core-skala tilnærmer effekten

≤1 ny parameter; lukking/negativ kontroll med samme definisjon; RC-only-forbedring er ikke eneste mål

DM_HIER_CMSCAT

Hierarchical c–M scatter + prior

σ_logc (hier)

Mer standard hierarkisk c_i∼logN(c(M_i),σ_logc); påvirker felles posterior for RC og GGL samtidig

Eksplisitt prior; marginalisering over latente c_i; forblir lavdimensjonal og auditbar

DM_CORE1P

1-parameter core proxy (coreNFW/DC14-inspired)

log r_core

En énparameter core-proxy fanger hovedeffekten av baryonic feedback uten høy-dimensjonale detaljer om stjernedannelse

Standardlitteratur siteres; ≤1 ny parameter; koblet til lukketesten

DM_RAZOR_M

NFW + lensing shear-calibration nuisance

m_shear (GGL)

En sentral systematisk feil på svak-linseeffekt-siden tas inn som effektiv parameter, slik at risikoen for å lese systematikk som fysikk reduseres

Nuisance bokføres eksplisitt; må ikke påvirke RC tilbake; vurdering skjer primært på robust lukking

DM_STD

Standardized DM baseline (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Samler de tre vanligste kritikkpunktene i én fortsatt lavdimensjonal standardbaseline

Parameterregnskap + informasjonskriterier rapporteres samlet; lukking er hovedindikatoren; sterkeste defensive DM-kontroll

Merknad: Parameternavnene følger den tekniske implementasjonen, for eksempel σ_logc, α_AC, log r_core og m_shear. Formålet med P1A er å gjøre DM-baselinen sterkere, men fortsatt auditbar — ikke å gjøre DM-siden til en ukontrollerbar høydimensjonal fitter. Spesielt innfører DM_HIER_CMSCAT c–M scatter hierarkisk: for hver halo settes konsentrasjonen c_i med lognormal spredning rundt c(M_i), og denne strukturen begrenses av en global σ_logc og en c(M)-prior. Den hierarkiske strukturen påvirker samtidig den felles posterioren for RC og GGL.


B.III Statistisk protokoll og produktdefinisjon i samsvar med hovedteksten

P1A gjenbruker alle dataprodukter, den delte avbildningen og auditrammeverket fra hovedteksten. Kjørerekkefølge og produktdefinisjoner holdes uendret:
(1) Run‑1: RC-only-inferens (output posterior_samples.npz og metrics.json);
(2) Run‑2: RC→GGL-lukketest (output closure_summary.json og permuted baseline);
(3) Run‑3: felles RC+GGL-tilpasning (output joint_summary.json).
Alle siterte tall kommer fra den automatisk sammensatte tabellen Tab_S1_P1A_scoreboard og kan kontrolleres etter full ny kjøring med P1A full_fit_runpack ved hjelp av det innebygde skriptet for sammenligning mot reference-tabellen.


B.IV Hovedresultater, innganger til tabeller/figurer og arkiveringsplan (samme DOI)

Denne delen gir de sentrale kvantitative konklusjonene fra P1A. Tabell B1 sammenfatter nøkkelindikatorer for RC-only, RC→GGL-lukketesten og den felles RC+GGL-tilpasningen, med differanser mot DM_RAZOR-baselinen i parentes. Lukkestyrken defineres som ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩; høyere er bedre. Figur B1 visualiserer samme scoreboard. Hovedpunktene er:
• Av de tre legacy-grenene gir bare DM_RAZOR_FB (feedback/core) en liten nettoøkning i lukkestyrke: 122.21→129.45 (+7.25); SCAT og AC gir ingen netto gevinst;
• De nye DM_HIER_CMSCAT og DM_RAZOR_M har svært liten effekt på lukkestyrken (~0), og DM_CORE1P viser heller ingen signifikant nettoforbedring;
• Kombinasjonsmodellen DM_STD kan forbedre joint logL betydelig og komme nærmere optimum i felles tilpasning, men lukkestyrken faller. Det tyder på at forbedringen først og fremst kommer fra tilpasningsfleksibilitet, ikke fra overførbarhet mellom prober;
• EFT_BIN forblir som kontroll tydelig bedre i både lukkestyrke og felles tilpasning. Hovedkonklusjonen i teksten er derfor robust mot innføring av en «sterkere DM-baseline + lensing nuisance».

For direkte sammenligning med hovedanalysen oppsummerer tabell S1a–S1b i hovedteksten de strenge resultatene for EFT-familien og DM_RAZOR: EFT-modellene forbedrer den felles tilpasningen med ΔlogL_total≈1155–1337 relativt til DM_RAZOR og oppnår ΔlogL_closure=172–281 i lukketesten. P1A gjør bare DM-siden til en vanskeligere motpart; funksjonen er å redusere innvendinger av typen strawman baseline eller systematics-as-physics, ikke å erstatte hovedsammenligningen.

Tabell B1|P1A-scoreboard (høyere er bedre; verdier i parentes er differanser mot DM_RAZOR baseline).

Modellgren (workspace)

Δk

RC-only best logL_RC (Δ)

Lukkestyrke ΔlogL_closure (Δ)

Joint best logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Figur B1|P1A-scoreboard: ΔlogL for lukking og felles tilpasning relativt til baseline (høyere er bedre).

Et sett fullførte eksempel-tags for dette tillegget er oppgitt nedenfor, for å finne P1A-mellomprodukter og tabeller/figurer:
P1A run_tag = 20260213_151233; P1A closure_tag = 20260213_161731; P1A joint_tag = 20260213_195428.


B.V Anbefalt sitering (Appendix citation note)

Når lesere ønsker å sitere den «standardiserte DM-baseline-stresstesten» i tillegg til hovedkonklusjonen, anbefales det å sitere hovedkonklusjonen og samtidig legge til: ‘See Appendix B (P1A) for standardized DM baseline stress tests (legacy SCAT/AC/FB + hierarchical c–M scatter prior + core proxy + lensing shear-calibration nuisance), under the same closure protocol.’