AI & Strojové učenieexpert

Čo je Transformer?

Transformer je architektúra neurónových sietí predstavená v roku 2017, ktorá využíva mechanizmus pozornosti (attention) na spracovanie sekvenčných dát. Je základom všetkých moderných jazykových modelov vrátane GPT, BERT, Claude a LLaMA.

Definícia Transformer

Čo je Transformer

Transformer je architektúra hlbokého učenia, ktorú predstavili výskumníci z Google v prelomovom článku „Attention Is All You Need" (2017). Na rozdiel od predchádzajúcich rekurentných sietí (RNN/LSTM), Transformer spracováva celú sekvenciu naraz (paralelne), čo ho robí výrazne rýchlejším.

Mechanizmus pozornosti (Attention)

Kľúčovou inováciou je self-attention — mechanizmus, ktorý umožňuje modelu „pozerať sa" na všetky časti vstupu súčasne a určiť, ktoré slová spolu súvisia. Napríklad vo vete „Mačka, ktorá sedela na gauči, zaspala" model pochopí, že „zaspala" sa vzťahuje na „mačka", nie na „gauč".

Štruktúra Transformera

Encoder — spracováva vstupnú sekvenciu a vytvára jej reprezentáciu (používa BERT)
Decoder — generuje výstupnú sekvenciu token po tokene (používa GPT)
Multi-head Attention — viaceré attention hlavy zachytávajú rôzne vzťahy
Pozičné kódovanie — pridáva informáciu o pozícii slov v sekvencii

Transformer sa stal dominantnou architektúrou nielen v NLP, ale aj v počítačovom videní (Vision Transformer), spracovaní zvuku a v multimodálnych modeloch. Prakticky každý významný AI model od roku 2020 je založený na tejto architektúre.

Praktický príklad

Príklad: Keď napíšete do prekladača vetu „The bank by the river was beautiful", Transformer model vďaka mechanizmu pozornosti pochopí, že „bank" tu znamená „breh" (nie „banka"), pretože attention mechanizmus prepojí slovo „bank" so slovom „river". Výsledkom je správny preklad „Breh pri rieke bol krásny" namiesto nesprávneho „Banka pri rieke bola krásna".

Často kladené otázky

Čo je Transformer v kontexte AI?

Transformer je typ architektúry neurónových sietí navrhnutý na spracovanie sekvenčných dát (text, kód, zvuk). Využíva mechanizmus pozornosti (attention), ktorý mu umožňuje chápať vzťahy medzi všetkými časťami vstupu súčasne.

Prečo je Transformer lepší ako RNN?

Transformer spracováva celú sekvenciu paralelne (naraz), zatiaľ čo RNN musí sekvenciu spracovávať postupne. To robí Transformer výrazne rýchlejším a schopnejším zachytiť dlhodobé závislosti v texte.

Aké modely sú postavené na Transformeroch?

Prakticky všetky moderné jazykové modely — GPT (OpenAI), BERT (Google), Claude (Anthropic), LLaMA (Meta), Gemini (Google) a Mistral. Transformer architektúru používajú aj modely pre obraz (DALL-E, Vision Transformer).

Súvisiace pojmy

GPT

GPT (Generative Pre-trained Transformer) je typ veľkého jazykového modelu vyvinutého spoločnosťou OpenAI. Dokáže generovať text, odpovedať na otázky, písať kód a riešiť úlohy na základe textového vstupu (promptu).

Neurónová sieť

Neurónová sieť je výpočtový model inšpirovaný štruktúrou ľudského mozgu, ktorý sa skladá z prepojených umelých neurónov usporiadaných do vrstiev. Dokáže sa učiť rozpoznávať vzory v dátach a robiť predikcie na základe trénovania.

Deep Learning

Deep learning (hlboké učenie) je podoblasť strojového učenia, ktorá využíva neurónové siete s mnohými vrstvami na automatické učenie sa komplexných vzorcov v dátach. Umožňuje počítačom spracovávať obraz, reč a text na úrovni blízkej ľudskej.

LLM (Veľký jazykový model)

LLM (Large Language Model) je typ AI modelu natrénovaný na obrovskom množstve textu, ktorý dokáže generovať, porozumieť a spracovávať ľudský jazyk. Medzi najznámejšie LLM patria GPT, Claude, Gemini a LLaMA.

NLP (Spracovanie prirodzeného jazyka)

NLP (Natural Language Processing) je odvetvie umelej inteligencie zamerané na interakciu medzi počítačmi a ľudským jazykom. Umožňuje strojom porozumieť, interpretovať a generovať text v prirodzenom jazyku.

Späť na slovník

Potrebujete pomôcť s webom?

Napíšte mi a poradím vám s vaším projektom. Prvá konzultácia je zadarmo a nezáväzná.

Napíšte mi Pozrite moju prácu