Web-scale Training & Data Filtering

Wprowadzenie

Web-scale Training odnosi się do trenowania dużych modeli językowych na ogromnych zbiorach danych pochodzących z całego internetu (setki terabajtów tekstu). Kluczowym elementem tego procesu jest Data Filtering – zaawansowane techniki selekcji i czyszczenia danych, które decydują o jakości końcowego modelu.

Wyzwania Web-scale Training

  • Ogromna ilość szumu, duplikatów i toksycznych treści
  • Niska jakość większości danych z Common Crawl
  • Problem redudancji (powtarzające się strony)
  • Balans między ilością a jakością danych
  • Koszt obliczeniowy filtrowania petabajtów danych

Główne techniki Data Filtering

  • Heuristic Filtering – reguły oparte na długości tekstu, entropii, stosunku kodu do tekstu, języku itp.
  • Perplexity Filtering – używanie małego modelu do oceny „naturalności” tekstu
  • Model-based Quality Scoring – klasyfikatory neuronowe oceniające jakość treści
  • Deduplication – MinHash + LSH (Locality Sensitive Hashing), SemDeDup
  • Safety & Toxicity Filtering – usuwanie szkodliwych treści
  • Domain-specific Filtering – zachowywanie wartościowych źródeł (Wikipedia, książki, kod, naukowe publikacje)

Przykłady w praktyce (2025–2026)

  • Llama 3 / Llama 4 – bardzo agresywne filtrowanie + synteza danych
  • Grok series (xAI) – nacisk na dane naukowe, techniczne i wysokiej jakości
  • Claude (Anthropic) – rozbudowane Constitutional AI + data filtering
  • DeepSeek, Qwen – chińskie podejście do web-scale z silnym filtrowaniem

Nowoczesne podejścia

  • Data curation pipelines (np. Datatrove, Apache Spark + Ray)
  • Self-evolving filters – modele same uczą się, co jest dobrą danymi
  • Importance Sampling – ważenie przykładów treningowych
  • Synthetic Data Generation – coraz częściej zastępuje część surowych danych

Wpływ na jakość modelu

Badania pokazują, że lepsze filtrowanie danych ma często większy wpływ na końcową wydajność modelu niż zwiększenie ilości surowych danych. Wysokiej jakości zbiór 5–10T tokenów po agresywnym filtrowaniu może przewyższyć 50T tokenów niskiej jakości.

Powiązane pojęcia

Data Curation • Common Crawl • Deduplication • Perplexity Filtering • MinHash • Dataset Distillation • Synthetic Data • LLM Pretraining • Data Quality Assessment