P1_RC_GGL: En streng lukkingstest av galaksedynamikk og svak gravitasjonslinsing (rotasjonskurver + GGL)
EFTs middelgravitasjonsrammeverk mot den minimale NFW-baseline for kald mørk materie (DM)
Se den opprinnelige evalueringsrapporten:
1. ChatGPT: https://chatgpt.com/share/6a00cd62-6e34-83eb-b165-6ec09e3519cc
2. Gemini: https://gemini.google.com/share/773ec96d75a0
3. Grok: https://grok.com/share/bGVnYWN5LWNvcHk_c0b4fa65-0e86-4adb-9b58-5617d616dc04
4. Qwen: https://chat.qwen.ai/s/22ab9336-671f-420a-a7fa-43e24774bb2a?fev=0.2.46
5. DeepSeek: https://chat.deepseek.com/share/tj6k7hb5owtoldg2bm
0 Sammendrag
Denne rapporten er en publiseringsklar arkivutgave deponert på Zenodo. Den gir en integrert og reviderbar kjede som dekker data, modellregnskap, rettferdig sammenligning, lukkingstesting og reproduserbarhetsmateriale. Vedlegg B (P1A) fungerer som et robusthetstillegg. Det konsentrerer seg om stresstester med en «mer standard DM-baseline + én sentral linsingssystematikk», brukt til å vurdere hvor følsomme hovedkonklusjonene er for mer realistisk DM-modellering og behandling av linsingssystematikker.
Kjernekonklusjoner (fire utsagn som kan siteres direkte; se avsnitt 2.4):
(1) I tilpasning av rotasjonskurver (RC) presterer EFT-familien klart bedre enn DM_RAZOR under alle kombinasjoner av kjerner og priorer; en typisk forbedring er Δlog𝓛_RC ≈ 10^3 (se tabell S1a).
(2) I RC→GGL-lukkingstesten viser EFT sterkere overførbarhet på tvers av prober: lukkingsstyrken Δlog𝓛_closure (True−Perm) er betydelig høyere enn for DM_RAZOR, og forskjellen er robust under kovarianskrymping, R_min- og σ_int-skanninger (se fig. S3 og tabell S1b).
(3) I den felles tilpasningen (RC+GGL) beholder EFT en stabil fordel; under den negative kontrollen som bryter den felles avbildningen, kollapser denne fordelen, noe som støtter tolkningen om at «middelgravitasjonseffekten» kommer fra den felles avbildningen og ikke fra en tilfeldig tilpasning (se fig. S4).
(4) Uten å øke dimensionaliteten vesentlig stresstester vedlegg B (P1A) DM-siden med mer standard DM-baselinemoduler og én sentral nuisance-parameter for linsingssystematikk. Disse forsterkningene fjerner ikke EFTs lukkingsfordel (se tabell B1 og fig. B1).
Tilgjengelighet av data og kode: rapportens Concept DOI 10.5281/zenodo.18526334; den fulle reproduksjonspakkens Concept DOI 10.5281/zenodo.18526286. Taggene som svarer til vedlegg B (P1A), er run_tag=20260213_151233, closure_tag=20260213_161731 og joint_tag=20260213_195428.
1 Abstrakt
Vi gjennomfører en reproduserbar kvantitativ sammenligning av to teoretiske rammeverk under samme data og samme statistiske protokoll: modellen for «middelgravitasjonskorreksjon» foreslått av Energifilamentteorien (Energy Filament Theory, EFT; adskilt fra den vanlige forkortelsen for effective field theory), og en baseline-modell for kald mørk materie (DM) med NFW-halo (DM_RAZOR). DM_RAZOR er med vilje valgt som en «minimal DM-baseline»: en NFW-halo med fast c–M-relasjon (uten halo-til-halo-spredning), brukt som en reviderbar og reproduserbar kontroll. Det bør også understrekes at denne artikkelen behandler EFT som en fenomenologisk, MOND-lignende parameterisering av effektivt felt / effektiv respons for testing under en samlet statistisk protokoll, ikke som en utledning av teoriens mikroskopiske førsteprinsipper i denne studien.
Dataene består av 2 295 hastighetsdatapunkter fra SPARC-rotasjonskurver (RC), ensartet forhåndsbehandlet og binnet (104 galakser, 20 RC-bins), sammen med KiDS-1000 galakse–galakse-svaklinsing (GGL) og overskudd i overflatetetthet ΔΣ(R) (4 stjernemasse-bins × 15 R-punkter per bin, totalt 60 punkter, med full kovarians).
Vi utfører sekvensielt RC-only-inferens, en RC→GGL-lukkingstest, GGL-only-inferens og felles RC+GGL-inferens, med konsistensauditer for å sikre at hver sitert numerisk verdi er sporbar. Under et strengt parameterregnskap og felles avbildningsbegrensninger (DM: 20 log M200_bin-parametere; EFT: 20 log V0_bin-parametere + 1 global log ℓ) presterer EFT-familien klart bedre enn DM_RAZOR i den felles tilpasningen: ΔlogL_total = 1155–1337 relativt til DM_RAZOR. Viktigere er det at lukkingstesten viser at RC-posterioren har ikke-triviell prediktiv kraft for GGL: EFTs lukkingsstyrke er ΔlogL_closure = 172–281, høyere enn DM_RAZORs 127. Når grupperingen RC-bin→GGL-bin stokkes tilfeldig, kollapser lukkingssignalet til 6–23, noe som bekrefter at signalet ikke er et statistisk tilfelle eller en implementasjonsartefakt. På tvers av systematiske skanninger av σ_int, R_min og kovarianskrymping forblir EFTs relative fordel positiv og stabil i størrelse. For å møte vanlige innvendinger om at «DM-baselinen er for svak» eller at «systematikker forveksles med fysikk», gir vedlegg B (P1A) en mer standard, men fortsatt lavdimensjonal og reviderbar, stresstest av DM-baselinen, med hierarkisk c–M-spredning + prior, en én-parameter kjerneproxy, linsing m og den kombinerte DM_STD-modellen. Under den samme lukkingsprotokollen fjerner ikke disse forsterkningene EFTs lukkingsfordel (se tabell B1/fig. B1).
Nøkkelord: rotasjonskurver; galakse–galakse-svaklinsing; lukkingstest; EFT; kald mørk materie; bayesiansk inferens
2 Innledning og oversikt over resultater
Rotasjonskurver (RC) og galakse–galakse-svaklinsing (GGL) er to komplementære gravitasjonsprober: RC begrenser det dynamiske potensialet og den radiale akselerasjonsrelasjonen (RAR) i skiveplanet, mens GGL måler den projiserte massefordelingen og gravitasjonsresponsen på haloskala. For enhver kandidatteori er nøkkelspørsmålet ikke om den kan tilpasse de to datasettene hver for seg, men om den kan forklare dem konsistent under samme avbildning på tvers av data og de samme felles begrensningene.
Følgelig tar denne artikkelen «lukkingstesten» som sin kjerneprotokoll: først brukes RC-only-posterioren til å forutsi GGL fremover, deretter sammenlignes den med en negativ kontroll der RC-bin→GGL-bin-avbildningen permuteres/stokkes. Dette evaluerer prediktiv overførbarhet på tvers av data og utelukker falske signaler forårsaket av implementasjonsbias eller tilfeldig tilpasning.
Teoretisk posisjonering og omfang: denne artikkelen forsøker ikke å presentere en mikroskopisk førsteprinsipputledning av EFT (Energy Filament Theory) eller en relativistisk komplett formulering. I stedet behandler vi EFT som en lavdimensjonal, MOND-lignende parameterisering av effektivt felt / effektiv respons (beskrevet av en kjerne f(x) og en global skala ℓ), og tester dens konsistens på tvers av data og dens overførbare prediktive kraft gjennom RC→GGL-lukkingstesten under et strengt parameterregnskap.
Forskningsprogram og omfangserklæring: denne artikkelen er del av et pågående observasjonelt gjenvinningsprogram i P-serien. I eksisterende data på galakseskala søker vi etter to mulige effektive bakgrunnsbidrag: (i) et «middelgravitasjonsgulv» som kan beskrives ved en grovkornet middel-gravitasjonsrespons, og (ii) et «stokastisk/støygulv» knyttet til fluktuasjoner i mikroskopiske prosesser. I denne artikkelen (P1) fokuserer vi bare på det første: uten å introdusere noen hypotese om mikroskopiske produksjonsmekanismer bruker vi RC→GGL-lukkingstesten til å hente frem observasjonelle indikasjoner på et middelgravitasjonsgulv og sammenligne det med en reviderbar DM-baseline under en samlet kontrollprotokoll. Som et heuristisk fysisk bilde: hvis kortlivede frihetsgrader finnes, kan deres henfall/annihilasjon omdanne hvilemasse til energi-impuls båret av andre frihetsgrader, noe som på effektivt nivå naturlig svarer til en dekomponering i «middelbidrag + fluktuasjonsbidrag»; denne artikkelen modellerer imidlertid ikke dette mikroskopiske bildet kvantitativt.
For å unngå overtolkning er omfangsgrensene for denne artikkelen som følger:
• Hva denne artikkelen gjør: under strengt parameterregnskap og felles avbildningsbegrensninger bruker den lukkingstesting til å måle prediktiv overførbarhet på tvers av data, og utfører en reproduserbar sammenligning mellom EFTs middelgravitasjonsrespons og en DM-baseline.
• Hva denne artikkelen ikke gjør: den diskuterer ikke mikroskopiske produksjonsmekanismer, abundanser/levetider eller kosmologiske begrensninger; den modellerer ikke det stokastiske leddet som svarer til «støygulvet».
• Hva denne artikkelen ikke hevder: den har ikke som mål å styrte mørk materie; P1 leverer ikke en endelig dom om hvorvidt et «gulv» finnes, men rapporterer evidens på et stadiumsnivå — at innenfor det robuste måledomenet valgt her favoriserer dataene modeller som inkluderer en middel-gravitasjonsrespons.
Samtidig gjør vi det klart at DM_RAZOR bare representerer en minimal og reviderbar NFW-baseline (fast c–M og ingen spredning; ingen adiabatisk kontraksjon, feedback-kjerne, nonsfærisitet eller miljøledd). Hovedkonklusjonen i brødteksten er derfor strengt begrenset til dette utsagnet: under den minimale baselinen og strenge parameterregnskaps-/avbildningsbegrensninger viser EFT sterkere konsistens på tvers av data. For å adressere det vanlige spørsmålet om hvorvidt en mer standard ΛCDM-baseline og modellering av sentrale linsingssystematikker ville endre konklusjonen vesentlig, samler vi mer standard, men fortsatt lavdimensjonale og reviderbare, DM-forsterkninger og en nuisance på linsingssiden i vedlegg B (P1A: stresstest for standardisering av DM-baseline), samtidig som nøyaktig samme felles avbildning og lukkingstestprotokoll som i hovedteksten beholdes (se tabell B1/fig. B1).
2.1 Tab. S1a–S1b: Sammendrag av nøkkelmetrikker (strengt)
Tabell S1a rapporterer hovedmetrikker for sammenligning i den felles tilpasningen (RC+GGL): logL, ΔlogL, AICc og BIC. Tabell S1b rapporterer metrikker for lukkingstest og robusthetsskanning: lukking, shuffle-negativ kontroll og skanningsområdene for σ_int / R_min / cov-shrink. Alle verdier kommer fra den strenge mastersammendragstabellen Tab_Z1_master_summary og kan spores punkt for punkt i utgivelsens arkivpakke.
Tabell S1a | Hovedmetrikker for felles tilpasning (RC+GGL, strengt).
Modell (arbeidsområde) | W-kjerne | k | Felles logL_total (best) | ΔlogL_total mot DM | AICc | BIC |
DM_RAZOR | none | 20 | -16927.763 | 0.0 | 33895.885 | 34010.811 |
EFT_BIN | none | 21 | -15590.552 | 1337.21 | 31223.501 | 31344.155 |
EFT_WEXP | exponential | 21 | -15668.83 | 1258.932 | 31380.057 | 31500.711 |
EFT_WYUK | yukawa | 21 | -15772.936 | 1154.827 | 31588.268 | 31708.922 |
EFT_WPOW | powerlaw_tail | 21 | -15633.321 | 1294.442 | 31309.038 | 31429.692 |
Tabell S1b | Lukkings- og robusthetsmetrikker (strengt).
Modell (arbeidsområde) | Lukking ΔlogL (true-perm) | ΔlogL for negativ kontroll etter shuffle | ΔlogL-område ved σ_int-skanning | ΔlogL-område ved R_min-skanning | ΔlogL-område ved cov-shrink-skanning |
DM_RAZOR | 126.678 | 22.725 | — | — | — |
EFT_BIN | 231.611 | 14.984 | 459–1548 | 1243–1289 | 1337–1351 |
EFT_WEXP | 171.977 | 6.04 | 408–1471 | 1169–1207 | 1259–1277 |
EFT_WYUK | 179.808 | 14.688 | 380–1341 | 1065–1099 | 1155–1166 |
EFT_WPOW | 280.513 | 6.672 | 457–1500 | 1203–1247 | 1294–1308 |
2.2 Fig. S3: Lukkingsstyrke (RC-only → predikert GGL)
Lukkingsstyrke defineres som ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩: på RC-only posteriorprøver forutsies GGL fremover og sammenlignes med en negativ kontroll der avbildningen RC-bin→GGL-bin er permutert.

Fig. S3 | Lukkingsstyrke (høyere er bedre): gjennomsnittlig log-likelihood-fordel for RC-only → GGL-prediksjon.
2.3 Fig. S4: Hovedsammenligning av felles tilpasning (RC+GGL)
Fordelen i felles tilpasning defineres som ΔlogL_total ≡ logL_total(model) − logL_total(DM_RAZOR). Under samme data, samme avbildning og nesten samme parameterskala oppnår EFT-familien en betydelig høyere felles log-likelihood.

Fig. S4 | Fordel i felles tilpasning (høyere er bedre): beste logL_total for RC+GGL relativt til DM_RAZOR.
2.4 Fire konklusjoner (direkte siterbare)
(1) I en samlet felles analyse av SPARC-rotasjonskurver og KiDS-1000-svaklinsing presterer EFTs middelgravitasjonsrammeverksmodell systematisk bedre enn DM_RAZOR under en streng kontrollprotokoll: ΔlogL_total = 1155–1337 relativt til DM_RAZOR.
(2) RC→GGL-lukkingstesten viser sterkere prediktiv konsistens for EFT: ΔlogL_closure = 172–281, sammenlignet med 127 for DM_RAZOR. Når grupperingen RC-bin→GGL-bin stokkes tilfeldig, kollapser lukkingssignalet til 6–23, noe som viser at signalet avhenger av korrekt avbildning på tvers av data og ikke av tilfeldig tilpasning.
(3) Systematiske skanninger av σ_int, R_min og kovarianskrymping endrer verken fortegnet eller størrelsesordenen til «EFT presterer bedre enn DM_RAZOR», noe som indikerer at konklusjonen er robust overfor vanlige systematiske forstyrrelser.
(4) Under samme lukkingsprotokoll styrker vedlegg B (P1A) DM-baselinen på en «standardisert og reviderbar» måte: det beholder tre én-parameter-forsterkninger (SCAT/AC/FB) og legger til hierarkisk c–M-spredning + prior, en én-parameter kjerneproxy og en skjærkalibrering m på linsingssiden (samt deres kombinerte DM_STD-modell). Resultatene viser at bare feedback/kjerne-grenen gir en liten netto forbedring i lukkingsstyrke (122.21→129.45, ΔΔlogL_closure≈+7.25); de øvrige forsterkningene bidrar ubetydelig eller negativt til lukkingsstyrken. Dermed avhenger ikke hovedkonklusjonen av at DM_RAZOR er en overdrevent svak baseline.
3 Data og forhåndsbehandling
Denne studien bruker to offentlige datasett. I den tekniske arbeidsflyten gjennomføres nedlasting, sjekksumverifikasjon (sha256) og forhåndsbehandling med sporbare skript. For å sikre rettferdig sammenligning på tvers av modeller deler alle arbeidsområder (EFT_BIN / EFT_WEXP / EFT_WYUK / EFT_WPOW / DM_RAZOR) nøyaktig de samme dataproduktene og bin-avbildningene.
3.1 Rotasjonskurver (RC, SPARC)
RC-dataene kommer fra SPARC-databasens Rotmod_LTG-filer (175 rotmod-filer). Etter forhåndsbehandling omfatter modelleringsutvalget 104 galakser og 2 295 (r, V_obs)-datapunkter, delt inn i 20 RC-bins etter stjernemasse og relaterte kriterier. Hvert datapunkt inneholder radius r (kpc), observert hastighet V_obs (km/s), observasjonsfeil σ_obs og komponenthastigheter for gass/skive/bulge (V_gas, V_disk, V_bul).
3.2 Svak linsing (GGL, KiDS-1000 / Brouwer+2021)
GGL-dataene bruker overskudds-overflatetetthet ΔΣ(R) fra fig. 3 i Brouwer et al. (2021) basert på KiDS-1000 (4 stjernemasse-bins, 15 R-punkter per bin), sammen med den oppgitte fulle kovariansen. I den tekniske arbeidsflyten rekonstrueres den opprinnelige long-form-kovariansen til en 15×15-matrise for hver bin, og Stage-B-auditer verifiserer dimensjonsmessig og numerisk rimelighet.
3.3 RC-bin → GGL-bin-avbildning og total utvalgsstørrelse
De 4 GGL-massebinene og 20 RC-binene kobles gjennom en fast avbildning: hver GGL-bin svarer til 5 RC-bins, og RC-bin-bidrag vektes med antallet galakser. Denne avbildningen holdes fast på tvers av alle modeller og er kjernebegrensningen for rettferdig sammenligning i lukkingstesting og felles tilpasning. Det endelige felles datasettet inneholder n_total = 2355 punkter (RC=2295, GGL=60).
4 Modeller og statistiske metoder
4.1 Minimal matematisk spesifikasjon for EFT og DM (reviderbar/testbar)
Dette avsnittet gir den minimale matematiske spesifikasjonen som kartlegges direkte til implementasjonen.
(a) Rotasjonskurvemodell (RC)
For hvert RC-datapunkt (r, V_obs, σ_obs) bruker vi komponentsuperposisjon: V_mod²(r) = V_bar²(r) + V_extra²(r). Her er V_bar²(r) = V_gas²(r) + Υ_d·V_disk²(r) + Υ_b·V_bul²(r). Hovedresultatene i denne artikkelen bruker Υ_d = Υ_b = 0.5, i samsvar med SPARCs empiriske anbefalinger og nyttig for å redusere unødvendige frihetsgrader.
(b) EFTs middelgravitasjonskorreksjon (EFT)
EFTs ekstra ledd parameteriseres i form av «middel-hastighet i kvadrat»: V_extra²(r) = V0_bin² · f(r/ℓ). Her er V0_bin amplitudeparameteren for hver RC-bin (20 parametere), ℓ er en global skala (1 parameter), og f(x) er en dimensjonsløs kjerneformfunksjon. Kjerneformene som sammenlignes i denne artikkelen (ingen av dem introduserer ekstra kontinuerlige frihetsgrader), er:
- none: f(x)=x/(1+x)
- exponential: f(x)=1−exp(−x)
- yukawa: f(x)=1−exp(−x)·(1+0.5x)
- powerlaw_tail: f(x)=1−(1+x)^(−1/2)
- (valgfri kontroll) gaussian: f(x)=erf(x/√2) (ikke inkludert i hovedkonklusjonssettet)
Fysisk motivasjon (utvidet): EFT tolker den ekstra gravitasjonsresponsen på galakseskala som en effektiv respons oppnådd ved grovkornet/skalabasert middelverdi av mer mikroskopiske virkninger over endelige skalaer. I denne artikkelen antar vi ingen bestemt mikroskopisk mekanisme; i stedet bruker vi en minimal og reviderbar parameterisering for kontrollert sammenligning og testing under en samlet statistisk protokoll.
For intuisjon kan det ekstra leddet skrives på akselerasjonsform: a_extra(r)=V_extra²(r)/r=(V0_bin²/r)·f(r/ℓ). Når r≫ℓ, går f→1 og V_extra→V0_bin, noe som gir et tilnærmet flatt ekstra hastighetsbidrag i ytre region. Når r≪ℓ og f(x)≈x, kan en karakteristisk akselerasjonsskala a0,bin≈V0_bin²/ℓ introduseres (opp til en O(1)-faktor fra kjernefunksjonen), som gir en MOND-lignende intuisjon for overgangsskalaen fra indre til ytre region.
Den diskrete kjernefamilien som brukes her (none/exponential/yukawa/powerlaw_tail), kan sees som lavdimensjonale proxyer for ulike «starthelninger / overgangshastigheter / langtrekkende haler» (for eksempel Yukawa-lignende skjerming versus en respons med lengre hale). De brukes til robusthetsstresstesting, ikke til å uttømme modellrommet. I svaklinsingskomponenten konstruerer vi en effektiv omhyllingsmasse og tetthet fra V_avg(r), og projiserer dem deretter for å få ΔΣ(R). Denne effektive tettheten bør forstås som en effektiv beskrivelse av linsingspotensialet under antakelsene om sfærisk symmetri og svakfelt-avbildning (fullstendige detaljer er flyttet til vedlegg A).
Alle kjerneformene ovenfor oppfyller f(x)→1 når x→∞ (dvs. metning V_extra²→V0²), mens de gir lineær eller sublineær vekst for x≪1: for eksempel exponential: f≈x; yukawa: f≈0.5x; powerlaw_tail: f≈0.5x. Derfor har ulike kjerneformer observerbare forskjeller i «starthelning» ved liten radius, overgangshastighet og ytre hale, og kan skilles av de felles RC+GGL- og lukkingstestene.
EFT-prediksjonen for svaklinsings-ΔΣ(R) oppnås ved å utlede omhyllingsmasse og tetthet fra V_avg(r), etterfulgt av projeksjonsintegraler: M_enc(r)=r·V_avg²(r)/G, ρ(r)=(1/4πr²)·dM_enc/dr, Σ(R)=2∫_R^∞ ρ(r)·r/√(r²−R²) dr, og ΔΣ(R)=Σ̄(<R)−Σ(R). Den numeriske implementasjonen bruker et logaritmisk gitter og adaptivt finjusterer det i unntakstilfeller for å sikre stabilitet og reproduserbarhet.
(c) DM_RAZOR: NFW-baseline for kald mørk materie-halo
Samtidig gjør vi det klart at DM_RAZOR bare representerer en minimal og reviderbar NFW-baseline (fast c–M og ingen spredning; ingen adiabatisk kontraksjon, feedback-kjerne, nonsfærisitet eller miljøledd). For å redusere risikoen for en «strawman baseline» hevder ikke denne artikkelen at slike effekter ikke finnes. I stedet innarbeider den dem i vedlegg B (P1A) som lavdimensjonale og reviderbare stresstester, inkludert hierarkisk behandling av c–M-spredning, en kjerneproxy og en nuisance for skjærkalibrering på linsingssiden.
4.2 Modellregnskap og rettferdig sammenligning (felles parametere = definisjon av lukking)
Antallet parametere i hovedsammenligningssettet er: DM_RAZOR k=20; EFT-familien k=21 (den ekstra parameteren er global log ℓ). Alle modeller deler de samme RC-dataene, de samme GGL-dataene og kovariansen, den samme RC-bin→GGL-bin-avbildningen, de samme baryoniske leddene og de samme enhetskonverteringene. I tillegg er kjerneformen (none / exponential / yukawa / powerlaw_tail) et diskret valg og introduserer ingen ekstra kontinuerlig parameter, slik at man unngår en fordel fra «én ekstra frihetsgrad».
4.3 Likelihood, priorer og sampler
RC-likelihooden er diagonal gaussisk: σ_eff² = σ_obs² + σ_int². Hovedresultatene fikser σ_int=5 km/s, og Run-5 skanner σ_int. GGL-likelihooden bruker en fullkovarians-gaussisk likelihood for hver bin: logL_GGL = Σ_b log 𝒩(ΔΣ_obs^b | ΔΣ_mod^b, C_b). Det felles målet er logpost(θ)=logprior(θ)+logL_RC(θ)+logL_GGL(θ). Priorene koder hovedsakelig fysisk mulige grenser (intervallbegrensninger på log ℓ, log V0 og log M200); når fri Υ og σ_int aktiveres, brukes svakt informative priorer (se implementasjonen og konfigurasjonen i utgivelsespakken for detaljer).
Sampleren bruker en adaptiv blokk-Metropolis-random walk: hvert steg oppdaterer bare en tilfeldig delblokk av parameterrommet for å forbedre akseptraten i høy dimensjon, og steglengden tilpasses lett med akseptrate i vinduer (målakseptrate omtrent 0,25). Hovedresultatene bruker quick-modus (innstillinger som n_steps=800), og hvert arbeidsområde produserer traces, residualer og PPC-plott for manuelle og skriptede auditer.
4.4 Lukkingstest og negativ kontroll (definisjon)
Lukkingstesten (Run-2) tester om RC-only-posterioren kan predikere GGL uten å retilpasse GGL. Konkret fremgenererer den ΔΣ(R) for 4 GGL-bins fra RC-only posteriorprøver og beregner logL_true med full kovarians; deretter permuterer den tilfeldig gruppeavbildningen RC-bin→GGL-bin for å få logL_perm. Lukkingsstyrken defineres som ΔlogL_closure≡⟨logL_true⟩−⟨logL_perm⟩. I tillegg grupperer Run-10 de 20 RC-binene tilfeldig på nytt til 4×5 (shuffle) og beregner lukking på nytt, for å teste hvor sterkt lukkingssignalet avhenger av korrekt avbildning.
5 Hovedresultater og tolkning
5.1 Hovedresultater for felles tilpasning (RC+GGL)
Beste logL_total fra den felles tilpasningen og den relative fordelen ΔlogL_total (relativt til DM_RAZOR) vises i tabell S1a og fig. S4. I hovedsammenligningssettet har EFT_BIN den største felles fordelen (ΔlogL_total=1337.210), mens de øvrige EFT-kjerneformene også beholder betydelige fordeler (1154.827–1294.442). Under informasjonskriteriene (AICc/BIC) presterer EFT-familien også klart bedre enn DM_RAZOR, noe som viser at fordelen ikke skyldes bias fra antall parametere.
Merknad: hovedbidraget til ΔlogL_total≈1337 kommer fra RC-leddet (ΔlogL_RC≈1065 i den felles dekomponeringen, omtrent 80 %). Dette kan forstås som en moderat forbedring på omtrent Δχ²≈0.90 per punkt over N=2295 RC-datapunkter, som naturlig akkumuleres til en fordel av størrelsesorden 10^3 under en diagonal gaussisk likelihood. Samtidig gir GGL og lukkingstesten uavhengige begrensninger på tvers av datasett, og rangeringen forblir stabil under stresstester av σ_int, R_min og cov-shrink (se avsnitt 6 og tabell S1b).
5.2 Resultater fra lukkingstest (RC-only → GGL)
Nøkkelstørrelsen i lukkingstesten, ΔlogL_closure, rapporteres i tabell S1b og fig. S3. EFT-familien har lukkingsstyrker på 171.977–280.513, høyere enn DM_RAZORs 126.678. Dette betyr at posteriorprøvene EFT får fra RC-dataene har sterkere overførbar prediktiv kraft for GGL-dataene når ingen ekstra frihetsgrader på tvers av data er tillatt.
Den negative kontrollen støtter videre den fysiske relevansen til lukkingssignalet: når grupperingen RC-bin→GGL-bin stokkes tilfeldig, faller EFTs lukkingsstyrke til 6–15 (med små forskjeller mellom kjerner), mens baseline-lukkingsstyrken er så høy som 172–281. Dette «signalkollapset» utelukker falske fordeler forårsaket av numerisk implementasjon, enhetsfeil eller feil behandling av kovarians.

Fig. R1 | Negativ kontroll: etter shuffle-gruppering faller lukkingssignalet betydelig (plottet fra Tab_Z1-metrikker).
5.3 Betydning og begrensninger ved resultatene
Konklusjonen i denne studien er at «under dette datasettet og denne protokollen presterer EFTs middelgravitasjonskorreksjon bedre enn den testede DM_RAZOR-baselinen». Det må understrekes at DM-siden bare bruker en minimal NFW-baseline med fast c(M)-relasjon, uten kjernedannelse, nonsfærisitet, miljøledd eller mer komplekse galakse–halo-koblingsmodeller. Derfor hevder ikke manuskriptet å utelukke alle DM-modellfamilier. I stedet gir det en reproduserbar kontrollbaseline sentrert om lukkingstesten, for å evaluere om RC og GGL kan forklares konsistent av de samme parameterne og den samme avbildningen på tvers av data.
For å adressere denne vanlige bekymringen fullførte vi et uavhengig utvidelsesprosjekt, P1A (se vedlegg B). Uten å endre den felles RC-bin→GGL-bin-avbildningen eller auditrammeverket styrker det DM-baselinen på en «standardisert og reviderbar» måte: utover tre én-parameter-forsterkninger (SCAT/AC/FB) legger det videre til (i) hierarkisk c–M-spredning + masse–konsentrasjon-prior (DM_HIER_CMSCAT), (ii) en én-parameter kjerneproxy for baryonisk feedback (DM_CORE1P), og (iii) en nuisance m for skjærkalibrering på svaklinsingssiden (DM_RAZOR_M), og rapporterer en kombinert modell DM_STD; EFT_BIN beholdes som kontrollreferanse.
• DM_RAZOR_SCAT (c–M-spredning) — introduserer konsentrasjonsspredningsparameteren σ_logc fra halo til halo for å teste om en fast c(M) systematisk undervurderer DMs forklaringskraft;
• DM_RAZOR_AC (adiabatisk kontraksjon) — bruker én enkelt parameter α_AC til å interpolere kontinuerlig mellom «ingen kontraksjon» og «standard kontraksjon», og fanger baryoners tendens til å trekke sammen den indre haloen med minimal kostnad;
• DM_RAZOR_FB (feedback/kjerne) — bruker en kjerneskala (f.eks. log r_core) til å beskrive hvordan kjernedannelse i indre region undertrykker rotasjonskurver, mens NFW-tilnærmingen beholdes på svaklinsingsskalaer.
Den kvantitative P1A-resultattavlen finnes i vedlegg B, tabell B1 / fig. B1 (automatisk generert fra Tab_S1_P1A_scoreboard). I lukkingsmetrikken gir DM_RAZOR_FB en liten netto forbedring (122.21→129.45, +7.25), mens de andre forsterkningene bidrar ubetydelig eller negativt til lukkingsstyrken. På siden for felles tilpasning kan tillegg av en hierarkisk c–M-spredningsprior (DM_HIER_CMSCAT) eller den kombinerte modellen (DM_STD) forbedre felles logL betydelig, men forbedrer ikke lukkingsstyrken, noe som tyder på at det hovedsakelig tilfører fleksibilitet i felles tilpasning snarere enn overførbarhet på tvers av prober. Derfor bør kjerne-konklusjonen i hovedteksten leses slik: under strenge begrensninger for felles avbildning og lukkingstest oppstår ikke EFTs konsistensfordel på tvers av data fra å velge en «overdrevent svak baseline» på DM-siden. P1A-utgivelsespakken som svarer til vedlegg B (supplerende tabeller/figurer og full_fit_runpack), vil inkluderes som tilleggsfiler under samme Zenodo Concept DOI som full_fit_runpack for denne artikkelen: https://doi.org/10.5281/zenodo.18526286.
6 Robusthet og kontrolleksperimenter
6.1 σ_int-skanning (Run-5)
Vi skanner systematisk den intrinsiske RC-spredningen σ_int og gjentar felles inferens ved hver σ_int, med beregning av ΔlogL_total relativt til DM_RAZOR. Minimums- og maksimumsverdiene for ΔlogL_total for hver modell over skanningsområdet rapporteres i tabell S1b.

Fig. R2 | Område for ΔlogL_total under σ_int-skanningen (høyere er bedre).
6.2 R_min-skanning (Run-6)
For å teste virkningen av systematikker i data fra sentralregionen (som ikke-sirkulær bevegelse, oppløsning og utilstrekkelig baryonisk modellering) anvender vi R_min-terskelkutt på RC og gjentar felles inferens. EFT-familiens fordel forblir positiv og stabil i skala under R_min-skanningen.

Fig. R3 | Område for ΔlogL_total under R_min-skanningen (høyere er bedre).
6.3 cov-shrink-skanning (Run-7)
For å teste usikkerhet i GGL-kovariansen anvender vi krymping på kovariansmatrisen for hver massebin: C_α=(1−α)C+α·diag(C), og skanner α. Resultatene viser at fordelen til EFT-familien er ufølsom for denne behandlingen.

Fig. R4 | Område for ΔlogL_total under cov-shrink-skanningen (høyere er bedre).
6.4 Ablasjonstrapp (Run-8)
Innenfor EFT_BIN utfører vi nestede ablasjoner: fra en minimal modell (uten frie parametere), til versjoner som bare beholder et lite antall frihetsgrader, og til slutt til den fullstendige modellen med 20-bin-amplituder + global skala. AICc/BIC viser at den fullstendige EFT_BIN-modellen er sterkt påkrevd av dataene.

Fig. R5 | EFT_BIN-ablasjonstrapp (AICc; lavere er bedre).
6.5 Holdout-prediksjon (Run-9)
Vi kjører videre en leave-one-bin-out-test (LOO): blant de 4 GGL-massebinene holdes én bin ute hver gang; inferensen gjøres på nytt ved bruk av de gjenværende binene (og all RC), og test-log-likelihood evalueres deretter på den holdte bin. Sammendragsmetrikker finnes i den supplerende tabellen Tab_R3_leave_one_bin_out (et Run-9-produkt; filbanemønstre er oppført i listen over nøkkelprodukter i avsnitt 8.2). EFT-familien forblir klart overlegen DM_RAZOR selv i det svakeste holdout-tilfellet.

Fig. R6 | LOO: log-likelihood-fordeling for den holdte bin (fra Run-9-produkter).
6.6 Negativ kontroll: RC-bin-shuffle (Run-10)
Run-10 grupperer de 20 RC-binene tilfeldig på nytt til 4×5 og beregner lukking på nytt mens RC-only-posterioren holdes uendret. Resultatene viser at shuffle, sammenlignet med den opprinnelige avbildningen, senker både lukkingsmiddelverdien logL_true og ΔlogL_closure betydelig (se tabell S1b og fig. R1), noe som ytterligere støtter tolkbarheten til lukkingssignalet.

Fig. R7 | Negativ kontroll: shuffle-avbildning gir et tydelig fall i lukkingsmiddelverdien logL_true (fra Run-10-produkter).
7 Sporbarhet og konsistensaudit (proveniens)
Alle numeriske verdier sitert i denne artikkelen kan spores punkt for punkt i de strenge sammendragstabellene og auditpostene i utgivelsesarkivet. For å holde hovedteksten mer lesbar er den fulle provenienskjeden (taggliste, audittabeller, sjekksumliste og verifikasjonsmetode) flyttet til vedlegg A.
8 Reproduserbarhet og Zenodo-arkiv
Erklæring om tilgjengelighet av data og kode: SPARC-rotasjonskurvedataene og KiDS-1000-svaklinsingsdataene som brukes i denne artikkelen, er offentlige datasett. Den publiseringsklare rapporten er arkivert på Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526334), og den fulle reproduksjonspakken er arkivert på Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526286). Detaljerte kjøretrinn, avhengighetsmiljø, arkivinventar og hash-verifikasjonsinformasjon finnes i vedlegg A; design, kjøretagger og utdata for stresstesten av standardisering av DM-baseline (P1A) finnes i vedlegg B.
Under samme Concept DOI for den fulle reproduksjonspakken (https://doi.org/10.5281/zenodo.18526286) tilbyr vi to reproduserbare innganger etter brukstilfelle: • P1 (hovedtekst) full_fit_runpack: reproduserer RC-only / closure / joint-analysene og robusthetsskanningene for EFT mot DM_RAZOR, og genererer hovedtekstmateriale inkludert tabell S1a/S1b og fig. S3/S4; • P1A (vedlegg B) full_fit_runpack: reproduserer stresstesten for standardisering av DM-baseline (SCAT/AC/FB + hierarkisk c–M-spredningsprior + core1p + linsing m + DM_STD, inkludert EFT_BIN-kontrollen), og genererer vedleggstabell B1 og fig. B1. P1As supplerende tabeller/figurer og full_fit_runpack vil inkluderes som tilleggsfiler under samme Concept DOI for å opprettholde ett samlet arkivinngangspunkt.
9 Takk og erklæringer
9.1 Takk
Vi takker SPARC- og KiDS-1000-teamene for å ha gjort offentlige data og dokumentasjon tilgjengelig, og deltakerne i dette prosjektets rekonstruksjons- og audit-arbeidsflyt.
9.2 Forfatterbidrag
Guanglin Tu hadde ansvar for det konseptuelle forslaget, studiedesign, teknisk implementasjon, datakuratering, formell analyse, implementering og audit av reproduserbarhetsarbeidsflyten samt manuskriptskriving.
9.3 Finansiering
Egenfinansiert av forfatteren, Guanglin Tu (ingen ekstern finansiering / intet tilskuddsnummer).
9.4 Interessekonflikter
Forfatteren, Guanglin Tu, er tilknyttet «EFT Working Group, Shenzhen Energy Filament Science Research Co., Ltd. (Kina)»; ingen andre interessekonflikter er erklært.
9.5 KI-assistanse
OpenAI GPT-5.2 Pro og Gemini 3 Pro ble brukt til språklig polering, strukturell redigering og organisering av reproduserbarhetsarbeidsflyten. De ble ikke brukt til å generere eller endre data, resultater, figurer, tabeller eller kode, og heller ikke til å generere siteringer. Forfatteren bærer fullt ansvar for innholdet og siteringsnøyaktigheten i hele manuskriptet.
10 Referanser
- Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.
- Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.
- Wright, C. O., & Brainerd, T. G. (2000). Gravitational Lensing by Navarro–Frenk–White Halos. The Astrophysical Journal, 534, 34–40.
- Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493. DOI: https://doi.org/10.1086/304888
- Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374. DOI: https://doi.org/10.1093/mnras/stu742
- Blumenthal, G. R., Faber, S. M., Flores, R., & Primack, J. R. (1986). Contraction of dark matter galactic halos due to baryonic infall. Astrophysical Journal, 301, 27. DOI: https://doi.org/10.1086/163867
- Di Cintio, A., Brook, C. B., Dutton, A. A., et al. (2014). A mass-dependent density profile for dark matter haloes including the influence of galaxy formation. Monthly Notices of the Royal Astronomical Society, 441, 2986–2995. DOI: https://doi.org/10.1093/mnras/stu729
- Read, J. I., Agertz, O., & Collins, M. L. M. (2016). Dark matter cores all the way down. Monthly Notices of the Royal Astronomical Society, 459, 2573–2590. DOI: https://doi.org/10.1093/mnras/stw713
- Energifilamentteorien. Zenodo (åpent vitenskapsarkiv) DOI: https://doi.org/10.5281/zenodo.18517411
Vedlegg A: Detaljer om sporbarhet og reproduserbarhet
Dette vedlegget sammenfatter langtidsarkivert informasjon for sporbarhet og reproduserbarhet, inkludert kjøretagger, auditresultater, arkivinventar og sentrale verifikasjonspunkter, slik at lesere kan kontrollere og reprodusere arbeidet etter behov.
A.1 Detaljer om sporbarhet og audit
For å sikre langsiktig sporbarhet bruker prosjektet tidsstemplede tagger for hver kjøring og hvert utdata, og beholder historiske produkter uten å overskrive dem. Kjerneverdiene sitert i dette manuskriptet kommer fra den strenge kompileringen (compile_tag=20260205_035929) og har bestått følgende konsistensauditer:
• Alle tabeller på stadienivå har run_tag og stadietagger; det strenge kompileringsskriptet velger «komplette og konsistente» kanoniske tabellkilder fra report/tables.
• Verdiene i Tab_Z1_master_summary og Tab_Z2_conclusion_highlights sammenlignes punkt for punkt med de valgte kanoniske tabellene.
• Under PDF-generering utføres en taggaudit på «refererte tabell-/figurtagger» for å sikre at utdaterte produkter ikke blandes inn.
Nøkkeltagger (for å lokalisere alle mellomprodukter): run_tag=20260204_122515; closure_tag=20260204_124721; joint_tag=20260204_152714; sigma_sweep_tag=20260204_161852; rmin_sweep_tag=20260204_195247; covshrink_tag=20260204_203219; ablation_tag=20260204_214642; LOO_tag=20260204_224827; negctrl_tag=20260204_234528; strict_compile_tag=20260205_035929; release_tag=20260205_112442.
Konsistensauditresultat: Tab_AUDIT_checks_strict rapporterer pass=9, fail=0, skip=0 (se utgivelsespakken for detaljer).
A.2 Kjøresteg for reproduserbarhet og arkivinventar
Denne studien bruker et reproduserbarhetssystem som består av «publiseringsklar rapport + tabell-/figursupplement + fullt omkjørbar runpack». Lesere kan direkte konsultere Tables & Figures Supplement for å verifisere alle tabell-/figurressurser sitert i artikkelen; for å reprodusere numeriske verdier og auditkjeden fra bunnen av kan de bruke full_fit_runpack til å laste ned data og kjøre hele arbeidsflyten på nytt. Etter fullføring kan pakkens innebygde skript for sammenligning med referansetabeller brukes til å verifisere konsistens i tabellverdier.
A.2.1 Rask start for reproduksjon (RUN_FULL, Windows PowerShell)
Dette avsnittet gir en kortere reproduksjonsvei (Windows PowerShell). For raske kontroller anbefales lesere å konsultere Tables & Figures Supplement direkte og verifisere de siterte tabellene og figurene punkt for punkt. For ende-til-ende-reproduksjon og generering av alle tabeller, figurer og auditprodukter bruker man full_fit_runpack: følg pakkens README/ONE_PAGE_REPRO_CHECKLIST for å kjøre verify_checksums.ps1 og RUN_FULL.ps1 (Mode=full anbefales).
Zenodo-arkivinngang (Concept DOI): https://doi.org/10.5281/zenodo.18526286.
Hovedkjedetagger for denne artikkelen: run_tag=20260204_122515; strict compile_tag=20260205_035929; release_tag=20260205_112442.
A.2.2 Arkivmaterialer og sentrale verifikasjonspunkter (pakker og kontroller)
Zenodo-arkivet gir tre komplementære kategorier av materialer: (1) publiseringsklar rapport (denne artikkelen, v1.1; inkludert vedlegg B: P1A stresstest for standardisering av DM-baseline); (2) Tables & Figures Supplement (supplerende tabeller og figurer som dekker alle tabell-/figurressurser sitert i denne artikkelen, separat for P1 og P1A); og (3) full_fit_runpack (full reproduksjonspakke: laster ned data fra bunnen av og kjører hele arbeidsflyten på nytt, separat for P1 og P1A). Punkt (1)–(2) støtter rask lesing og uavhengig verifikasjon; punkt (3) gir full ende-til-ende-reproduserbarhet.
Materialkategori | Filnavn (eksempel) | Formål og posisjonering (anbefalt bruksrekkefølge) |
Publiseringsklar rapport (kinesisk og engelsk) | P1_RC_GGL_report_EN_PUBLICATION_V1_1.pdf | Full rapport arkivert på Zenodo; hovedteksten gir kjerne-konklusjonene og robusthetsauditene, mens vedlegg B gir P1A (stresstest for standardisering av DM-baseline). |
Tabell- og figursupplement (P1) | P1_RC_GGL_supplement_figs_tables_V1_1.zip | Alle tabeller (CSV) og figurer (PNG) sitert i hovedteksten, inkludert genereringsskript og taggfiler. |
Tabell- og figursupplement (P1A) | P1A_supplement_figs_tables_v1.zip | Alle tabeller og figurer sitert i vedlegg B (P1A), inkludert Tab_S1_P1A_scoreboard og Fig_S1_P1A_scoreboard. |
full_fit_runpack (P1) | P1_RC_GGL_full_fit_runpack_v1_1.zip | Full ende-til-ende-reproduksjon: last ned data fra bunnen av og kjør RC-only/closure/joint og robusthetsskanninger på nytt. |
full_fit_runpack (P1A) | P1A_RC_GGL_full_fit_runpack_v1.zip | Full ende-til-ende-reproduksjon (vedlegg B): kjør DM 7+1 + DM_STD på nytt (inkludert EFT_BIN-kontrollen) og generer vedleggsressurser; pakken inkluderer et skript for referansetabellsammenligning for å verifisere konsistens i tabellverdier. |
Siteringsanbefaling: når denne artikkelen eller tilhørende reproduserbarhetsmaterialer siteres, bør Zenodo Concept DOI oppgis (https://doi.org/10.5281/zenodo.18526334).
Nøkkelprodukter som bør finnes og kunne sammenlignes etter reproduksjon, omfatter:
- report/tables/Tab_D_closure_summary__20260204_122515__*.csv (lukkingssammendrag)
- report/tables/Tab_F_joint_summary__20260204_122515__*.csv (sammendrag av felles tilpasning)
- report/tables/Tab_G_joint_sigma_sweep__20260204_122515__*.csv (σ_int-skanning)
- report/tables/Tab_H_joint_rmin_sweep__20260204_122515__*.csv (R_min-skanning)
- report/tables/Tab_I_joint_covshrink_sweep__20260204_122515__*.csv (cov-shrink-skanning)
- report/tables/Tab_R2_ablation_ladder__20260204_122515__*.csv (ablasjon)
- report/tables/Tab_R3_leave_one_bin_out__20260204_122515__*.csv (LOO)
- report/tables/Tab_R4_negctrl_rcbin_shuffle__20260204_122515__*.csv (negativ kontroll)
- report/final/Tab_Z1_master_summary__20260204_122515__20260205_035929.csv (streng mastertabell; svarer til tabell S1a/S1b og verdier i hovedteksten)
- report/final/P1_RC_GGL_final_bundle__20260204_122515__20260205_035929.pdf (publiseringsklar PDF-pakke; kan brukes til rask gjennomgang og sitering)
Vedlegg B: P1A—Stresstest for standardisering av DM-baseline (DM 7+1 + DM_STD; med EFT-kontroll)
Dette vedlegget dokumenterer et utvidelsesprosjekt (P1A) for «stresstesting av DM-baseline-standardisering» som er konsistent med lukkingsprotokollen i hovedteksten. Rollen er å oppgradere den minimale DM_RAZOR-baselinen brukt i hovedteksten (NFW + fast c–M, ingen spredning / ingen kontraksjon / ingen kjerne) til et DM-baselinesett som ligger nærmere astrofysisk praksis og er mer robust mot vanlige innvendinger, uten å introdusere et stort antall frihetsgrader og uten å endre den felles RC-bin→GGL-bin-avbildningen eller auditrammeverket. P1A dekker, og er en overmengde av, den tidligere tregrenede stresstesten: den beholder SCAT/AC/FB samtidig som den legger til hierarkisk c–M-spredning + prior, en én-parameter kjerneproxy og en nuisance m for skjærkalibrering på linsingssiden; den gir også den kombinerte modellen DM_STD. EFT_BIN beholdes som kontrollreferanse.
Tilleggsmerknad: lukkingsstyrker og relaterte verdier i vedlegg B (P1A) bruker et større Monte Carlo-budsjett (for eksempel ndraw=400, nperm=24) enn quick-budsjettet brukt i hovedteksten for å dekke hele EFT-kjernefamilien (for eksempel ndraw=60, nperm=12). Derfor kan absolutte verdier vise prøvetakingsdrift på O(10)-nivå. Modell-til-modell-sammenligninger innenfor samme budsjett/tabell er imidlertid rettferdige, og fortegnet og skalaen til fordelen forblir stabile på tvers av budsjetter.
B.1 Formål og posisjonering (hvorfor P1A, og hvorfor som vedlegg)
P1A forsøker ikke å uttømme alle mulige valg for ΛCDM-halomodellering (som nonsfærisitet, miljøavhengighet, komplekse galakse–halo-koblinger eller høydimensjonal baryonfysikk). I stedet følger P1A et prinsipp om «lavdimensjonal, reviderbar, reproduserbar» modellering: hver forsterkningsmodul introduserer bare ≤1 sentral effektiv parameter og forblir underlagt de tre harde begrensningene i denne artikkelen:
(i) Parameterregnskap: hver ny parameter må registreres eksplisitt og rapporteres sammen med informasjonskriterier (AICc/BIC);
(ii) Felles avbildning: det samme grupperingskartet RC-bin→GGL-bin brukes fortsatt; det er ikke tillatt å «tune avbildningen» separat for ett enkelt datasett;
(iii) Lukkingstest: enhver forsterkning må vise reell gevinst i RC→GGL-overføringsprediksjon, ikke bare bedre RC-only-tilpasning.
B.2 DM 7+1 + DM_STD: Moduldefinisjoner, parametere og innføring i den felles posterioren
Som en uavhengig runpack gir P1A 8 DM-arbeidsområder (DM 7+1) pluss 1 EFT-kontroll: med DM_RAZOR som baseline konstruerer den tre legacy én-parameter-forsterkninger (DM_RAZOR_SCAT / DM_RAZOR_AC / DM_RAZOR_FB), legger til tre mer standard defensive moduler (DM_HIER_CMSCAT / DM_CORE1P / DM_RAZOR_M), og gir deretter den kombinerte modellen DM_STD. Det felles målet for disse modulene er å dekke de tre vanligste innvendingene med minst mulig økning i dimensionalitet: (a) hvordan c–M-spredning og priorer inngår i en hierarkisk modell; (b) om hovedeffekten av baryonisk feedback kan fanges av en én-parameter kjerneproxy; og (c) om sentrale systematikker på linsingssiden kan forveksles med et fysisk signal.
Arbeidsområde | dm_model | Nye parametere (≤1) | Fysisk motivasjon (kjerne) | Implementeringsprinsipp (auditvennlig) |
|---|---|---|---|---|
DM_RAZOR | NFW (fast c–M, ingen spredning) | — | Minimal, reviderbar ΛCDM-halo-baseline; brukt til streng sammenligning med EFT | Felles avbildning fast; strengt parameterregnskap; brukt som baseline bare for relativ sammenligning |
DM_RAZOR_SCAT | NFW + c–M-spredning (legacy) | σ_logc | c–M-relasjonen har spredning; tilnærmet med én-parameter lognormal spredning | ≤1 ny parameter; felles avbildning beholdt; lukkingsgevinst brukt som akseptkriterium |
DM_RAZOR_AC | NFW + adiabatisk kontraksjon (legacy) | α_AC | Baryonisk innfall kan indusere adiabatisk kontraksjon av haloen; tilnærmet med én-parameter styrke | ≤1 ny parameter; avbildning uendret; rapporterer AICc/BIC-endringer og lukkingsgevinst |
DM_RAZOR_FB | NFW + feedback-kjerne (legacy) | log r_core | Feedback kan danne en kjerne i indre region; tilnærmet med en én-parameter kjerneskala | ≤1 ny parameter; samme lukkings-/negativ-kontroll-protokoll; RC-only-forbedring er ikke eneste mål |
DM_HIER_CMSCAT | Hierarkisk c–M-spredning + prior | σ_logc (hier) | Mer standard hierarkisk c_i∼logN(c(M_i),σ_logc); påvirker den felles posterioren for både RC og GGL | Eksplisitt prior; latent c_i marginaliseres; fortsatt lavdimensjonal og reviderbar |
DM_CORE1P | Én-parameter kjerneproxy (inspirert av coreNFW/DC14) | log r_core | Bruker en én-parameter kjerneproxy for hovedeffekten av baryonisk feedback, og unngår høydimensjonale detaljer om stjernedannelse | Siterer standardlitteratur; ≤1 ny parameter; knyttet til lukkingstesten |
DM_RAZOR_M | NFW + nuisance for skjærkalibrering i linsing | m_shear (GGL) | Absorberer en sentral svaklinsingssystematikk som en effektiv parameter, og reduserer risikoen for å forveksle systematikker med fysikk | Nuisance registreres eksplisitt; kan ikke påvirke RC bakover; resultater vurderes hovedsakelig etter lukkingsrobusthet |
DM_STD | Standardisert DM-baseline (HIER_CMSCAT + CORE1P + m) | σ_logc + log r_core (+ m_shear) | Inkluderer de tre vanligste kritikklassene i en fortsatt lavdimensjonal standardbaseline | Parameterregnskap + informasjonskriterier rapporteres; lukking er primærmetrikken; brukt som sterkeste defensive DM-kontroll |
Merknad: parameternavnene ovenfor følger den tekniske implementasjonen (for eksempel σ_logc, α_AC, log r_core og m_shear). Designfokuset i P1A er å «gjøre DM-baselinen noe sterkere samtidig som den forblir reviderbar», ikke å gjøre DM-siden til en ukontrollerbar høydimensjonal fitter. Særlig introduserer DM_HIER_CMSCAT c–M-spredning hierarkisk: konsentrasjonen c_i for hver halo tildeles lognormal spredning rundt c(M_i), begrenset av global σ_logc og c(M)-prioren; denne hierarkiske strukturen påvirker den felles posterioren for både RC og GGL.
B.3 Statistisk protokoll og produktkonvensjoner i samsvar med hovedteksten
P1A gjenbruker alle dataprodukter, den felles avbildningen og auditrammeverket fra hovedteksten. Kjørselsrekkefølgen og produktkonvensjonene forblir konsistente:
(1) Run‑1: RC-only-inferens (utdata posterior_samples.npz og metrics.json);
(2) Run‑2: RC→GGL-lukkingstest (utdata closure_summary.json og permutert baseline);
(3) Run‑3: felles RC+GGL-tilpasning (utdata joint_summary.json).
Alle siterte tall kommer fra den automatisk kompilerte tabellen (Tab_S1_P1A_scoreboard) og kan kontrolleres etter omkjøring av hele P1A-arbeidsflyten ved hjelp av skriptet for referansetabellsammenligning som er innebygd i P1A full_fit_runpack.
B.4 Hovedresultater, inngangspunkter til tabell/figur og arkivplan (samme DOI)
Dette avsnittet gir P1As sentrale kvantitative konklusjoner. Tabell B1 sammenfatter nøkkelmetrikker for RC-only, RC→GGL-lukking og felles RC+GGL-tilpasning (parenteser viser forskjeller relativt til DM_RAZOR-baselinen). Lukkingsstyrke defineres som ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩ (høyere er bedre). Fig. B1 visualiserer samme resultattavle. Hovedpunktene er:
• Blant de tre legacy-grenene gir bare DM_RAZOR_FB (feedback/kjerne) en liten netto forbedring i lukkingsstyrke: 122.21→129.45 (+7.25); SCAT og AC gir ingen netto forbedring;
• De nylig tilførte DM_HIER_CMSCAT og DM_RAZOR_M har svært små effekter (~0) på lukkingsstyrken, og DM_CORE1P viser heller ingen vesentlig netto forbedring;
• Den kombinerte modellen DM_STD kan forbedre felles logL betydelig (nærmere optimum for felles tilpasning), men lukkingsstyrken reduseres, noe som tyder på at gevinsten hovedsakelig kommer fra fleksibilitet i felles tilpasning snarere enn overførbarhet på tvers av prober;
• Som kontroll beholder EFT_BIN fortsatt en tydelig fordel både i lukkingsstyrke og felles tilpasning. Hovedkonklusjonen er derfor robust mot innføringen av en «sterkere DM-baseline + linsingsnuisance».
For direkte sammenligning med hovedtekstresultatene sammenfatter tabell S1a–S1b den strenge sammenligningen mellom EFT-familien og DM_RAZOR: EFT-modeller forbedrer den felles tilpasningen med ΔlogL_total≈1155–1337 relativt til DM_RAZOR og når ΔlogL_closure=172–281 i lukkingstesten. P1A skaper bare en «hardere kontroll» på DM-siden; formålet er å redusere bekymringer som «strawman baseline» eller «systematikker som fysikk», ikke å erstatte hovedsammenligningen.
Tabell B1 | P1A-resultattavle (høyere er bedre; parenteser angir forskjeller relativt til DM_RAZOR-baselinen).
Modellgren (arbeidsområde) | Δk | Beste RC-only logL_RC (Δ) | Lukkingsstyrke ΔlogL_closure (Δ) | Beste felles logL_total (Δ) |
DM_RAZOR | 0 | -15702.654 (+0.000) | 122.205 (+0.000) | -27347.068 (+0.000) |
DM_RAZOR_SCAT | 1 | -15702.294 (+0.361) | 121.236 (-0.969) | -23153.311 (+4193.758) |
DM_RAZOR_AC | 1 | -15703.689 (-1.035) | 121.531 (-0.674) | -23982.557 (+3364.511) |
DM_RAZOR_FB | 1 | -15496.046 (+206.609) | 129.454 (+7.249) | -27478.531 (-131.463) |
DM_HIER_CMSCAT | 1 | -15702.644 (+0.010) | 121.978 (-0.227) | -23153.160 (+4193.908) |
DM_CORE1P | 1 | -15723.158 (-20.504) | 122.056 (-0.149) | -27336.258 (+10.810) |
DM_RAZOR_M | 0 (+m) | -15702.654 (+0.000) | 122.205 (+0.000) | -27340.451 (+6.617) |
DM_STD | 2 (+m) | -15832.203 (-129.549) | 105.690 (-16.515) | -22984.445 (+4362.623) |
EFT_BIN | 1 | -14631.537 (+1071.117) | 204.620 (+82.415) | -19001.142 (+8345.926) |
Fig. B1 | P1A-resultattavle: lukking og felles ΔlogL relativt til baseline (høyere er bedre).

Eksempeltagger for det fullførte kjøresettet som svarer til dette vedlegget, er som følger (brukes til å lokalisere P1A-mellomprodukter og tabeller/figurer):
P1A run_tag = 20260213_151233; P1A closure_tag = 20260213_161731; P1A joint_tag = 20260213_195428.
B.5 Foreslått sitering (siteringsmerknad til vedlegg)
Når lesere trenger å sitere «stresstesten for standardisering av DM-baseline» i tillegg til hovedkonklusjonene i artikkelen, anbefales det at de siterer hovedkonklusjonen sammen med følgende merknad: «See Appendix B (P1A) for standardized DM-baseline stress tests (legacy SCAT/AC/FB + hierarchical c–M scatter prior + core proxy + lensing shear-calibration nuisance), under the same closure protocol.»