AI & Strojové učeniezačiatočník

Čo je Dataset?

Dataset (dátová sada) je organizovaná zbierka dát používaná na trénovanie, testovanie a vyhodnocovanie modelov strojového učenia. Kvalita a veľkosť datasetu priamo ovplyvňujú výkon výsledného modelu.

Definícia Dataset

Čo je dataset

Dataset je štrukturovaná zbierka dát — obrázkov, textov, čísel, zvukov alebo videí — používaná na trénovanie modelov umelej inteligencie. Dataset je pre AI to, čo učebnica pre študenta — zdroj, z ktorého sa model učí.

Rozdelenie datasetu

  • Trénovacia sada (Training set) — 70-80 % dát, na ktorých sa model učí (typicky najväčšia časť)
  • Validačná sada (Validation set) — 10-15 % dát, na ladenie hyperparametrov počas trénovania
  • Testovacia sada (Test set) — 10-15 % dát, na konečné vyhodnotenie výkonu modelu

Známe datasety

  • ImageNet — 14 miliónov anotovaných obrázkov v 20 000 kategóriách
  • MNIST — 70 000 ručne písaných číslic (štandardný benchmark)
  • Common Crawl — petabajty textu z internetu (na trénovanie jazykových modelov)
  • LAION — miliardy párov obrázok-popis (na trénovanie text-to-image modelov)

V praxi platí pravidlo „garbage in, garbage out" — ak sú trénovacie dáta nekvalitné, zaujatené (biased) alebo nedostatočné, model bude robiť chybné predikcie bez ohľadu na sofistikovanosť algoritmu.

Praktický príklad

Príklad: Startup vyvíja AI na rozpoznávanie slovenských dopravných značiek. Tím zozbiera 50 000 fotografií dopravných značiek z rôznych uhlov, za rôzneho počasia a osvetlenia. Každú fotografiu manuálne anotujú — označia typ značky a jej polohu v obraze. Dataset rozdelia na trénovaciu (40 000), validačnú (5 000) a testovaciu (5 000) sadu. Model natrénovaný na tomto datasete dosahuje 98% presnosť.

Často kladené otázky

Čo je dataset v kontexte AI?

Dataset je organizovaná zbierka dát (obrázkov, textov, čísel), na ktorej sa trénuje model strojového učenia. Kvalita datasetu je kľúčová — model sa môže naučiť len to, čo sa v dátach nachádza.

Koľko dát potrebujem na trénovanie modelu?

Závisí od zložitosti úlohy. Pre jednoduchú klasifikáciu stačia stovky až tisíce príkladov. Pre deep learning modely sú ideálne desaťtisíce až milióny. Jazykové modely ako GPT sa trénujú na biliónoch slov.

Kde nájdem datasety na trénovanie?

Populárne zdroje sú Kaggle, Hugging Face Datasets, Google Dataset Search, UCI Machine Learning Repository a Papers with Code. Mnohé datasety sú voľne dostupné na akademické a výskumné účely.

Čo je bias v datasete?

Bias (zaujatosť) nastáva, keď dataset nereprezentuje reálny svet rovnomerne — napr. obsahuje väčšinou fotografie bielych tvárí. Model natrénovaný na takom datasete bude na podreprezentovaných skupinách fungovať horšie.

Súvisiace pojmy

Potrebujete pomôcť s webom?

Napíšte mi a poradím vám s vaším projektom. Prvá konzultácia je zadarmo a nezáväzná.