Tag archive

Data Contamination

Everything we’ve published under Data Contamination so far.

Follow this lane

1 Useful Machines post on Data Contamination

Data Contamination readers are already filtering for a specific AI topic, which makes this archive a useful audience signal for sponsors and repeat readers.

2026-04-28 By Mara Vale 5 min read

Talkie is a 1930 language model with a modern contamination problem

A 13B model trained on pre-1931 text is less a nostalgia demo than a practical test bed for clean data, synthetic tuning, and what language models really learn from the web.

Language Models Training Data Open Models AI Research Data Contamination