AI & Strojové učeniezačiatočník

Čo je Dataset?

Dataset (dátová sada) je organizovaná zbierka dát používaná na trénovanie, testovanie a vyhodnocovanie modelov strojového učenia. Kvalita a veľkosť datasetu priamo ovplyvňujú výkon výsledného modelu.

Definícia Dataset

Čo je dataset

Dataset je štrukturovaná zbierka dát — obrázkov, textov, čísel, zvukov alebo videí — používaná na trénovanie modelov umelej inteligencie. Dataset je pre AI to, čo učebnica pre študenta — zdroj, z ktorého sa model učí.

Rozdelenie datasetu

Trénovacia sada (Training set) — 70-80 % dát, na ktorých sa model učí (typicky najväčšia časť)
Validačná sada (Validation set) — 10-15 % dát, na ladenie hyperparametrov počas trénovania
Testovacia sada (Test set) — 10-15 % dát, na konečné vyhodnotenie výkonu modelu

Známe datasety

ImageNet — 14 miliónov anotovaných obrázkov v 20 000 kategóriách
MNIST — 70 000 ručne písaných číslic (štandardný benchmark)
Common Crawl — petabajty textu z internetu (na trénovanie jazykových modelov)
LAION — miliardy párov obrázok-popis (na trénovanie text-to-image modelov)

V praxi platí pravidlo „garbage in, garbage out" — ak sú trénovacie dáta nekvalitné, zaujatené (biased) alebo nedostatočné, model bude robiť chybné predikcie bez ohľadu na sofistikovanosť algoritmu.

Praktický príklad

Príklad: Startup vyvíja AI na rozpoznávanie slovenských dopravných značiek. Tím zozbiera 50 000 fotografií dopravných značiek z rôznych uhlov, za rôzneho počasia a osvetlenia. Každú fotografiu manuálne anotujú — označia typ značky a jej polohu v obraze. Dataset rozdelia na trénovaciu (40 000), validačnú (5 000) a testovaciu (5 000) sadu. Model natrénovaný na tomto datasete dosahuje 98% presnosť.

Často kladené otázky

Čo je dataset v kontexte AI?

Dataset je organizovaná zbierka dát (obrázkov, textov, čísel), na ktorej sa trénuje model strojového učenia. Kvalita datasetu je kľúčová — model sa môže naučiť len to, čo sa v dátach nachádza.

Koľko dát potrebujem na trénovanie modelu?

Závisí od zložitosti úlohy. Pre jednoduchú klasifikáciu stačia stovky až tisíce príkladov. Pre deep learning modely sú ideálne desaťtisíce až milióny. Jazykové modely ako GPT sa trénujú na biliónoch slov.

Kde nájdem datasety na trénovanie?

Populárne zdroje sú Kaggle, Hugging Face Datasets, Google Dataset Search, UCI Machine Learning Repository a Papers with Code. Mnohé datasety sú voľne dostupné na akademické a výskumné účely.

Čo je bias v datasete?

Bias (zaujatosť) nastáva, keď dataset nereprezentuje reálny svet rovnomerne — napr. obsahuje väčšinou fotografie bielych tvárí. Model natrénovaný na takom datasete bude na podreprezentovaných skupinách fungovať horšie.

Súvisiace pojmy

Trénovanie modelu

Trénovanie modelu je proces, pri ktorom sa AI model učí rozpoznávať vzory v dátach úpravou svojich vnútorných parametrov (váh). Model opakovane prechádza trénovacie dáta a minimalizuje chybu medzi svojimi predikciami a správnymi odpoveďami.

Supervised Learning

Supervised learning (učenie s učiteľom) je typ strojového učenia, kde sa model trénuje na dátach, ktoré obsahujú vstupy aj správne výstupy (labely). Model sa učí priradiť vstupy k výstupom a potom predikuje výstupy pre nové, nevidené dáta.

Unsupervised Learning

Unsupervised learning (učenie bez učiteľa) je typ strojového učenia, kde model pracuje s dátami bez preddefinovaných labelov. Model sám objavuje skryté vzory, štruktúry a skupiny v dátach bez ľudského vedenia.

Fine-tuning

Fine-tuning je proces dolaďovania predtrénovaného AI modelu na špecifickú úlohu alebo doménu pomocou menšieho, špecializovaného datasetu. Umožňuje prispôsobiť všeobecný model konkrétnym potrebám bez trénovania od nuly.

Embeddings

Embeddings sú číselné reprezentácie (vektory) dát — slov, viet, obrázkov alebo iných objektov — v mnohorozmernom priestore. Podobné objekty majú blízke vektory, čo umožňuje strojom porozumieť vzťahom a podobnosti medzi dátami.

Späť na slovník

Potrebujete pomôcť s webom?

Napíšte mi a poradím vám s vaším projektom. Prvá konzultácia je zadarmo a nezáväzná.

Napíšte mi Pozrite moju prácu