megerősítéses tanulás

Magyar

Kiejtés

IPA: [ ˈmɛɡɛrøːʃiːteːʃɛʃtɒnulaːʃ]

Főnév

megerősítéses tanulás

(informatika, mesterséges intelligencia, gépi tanulás) A megerősítéses tanulás (angolul Reinforcement Learning, rövidítve RL) egy gépi tanulási módszer, amely során egy ügynök (algoritmus vagy rendszer) egy környezetben interakciók révén tanul meg feladatokat megoldani. Az ügynök cselekedeteket hajt végre, és a környezet visszajelzéseket ad (jutalmakat vagy büntetéseket), amelyek alapján az ügynök optimalizálja a viselkedését. Az RL célja, hogy az ügynök megtanulja a hosszú távon legjobb cselekvéseket végrehajtani a legnagyobb összesített jutalom elérése érdekében.

Fő fogalmak

Ügynök (agent): Ez az entitás vagy algoritmus, amely döntéseket hoz és cselekvéseket hajt végre a környezetben.
Környezet (environment): Az a rendszer vagy világ, amelyben az ügynök működik, és amely reagál az ügynök cselekvéseire visszajelzésekkel (jutalom vagy büntetés formájában).
Állapot (state): A környezet aktuális állapota, amely leírja, hogy hol van az ügynök vagy milyen helyzetben van a rendszer egy adott pillanatban.
Cselekvés (action): Az ügynök által végrehajtott döntések vagy lépések, amelyek megváltoztatják a környezet állapotát.
Jutalom (reward): A visszajelzés, amelyet az ügynök kap egy cselekvés után. A jutalom lehet pozitív (megerősítve, hogy a cselekvés helyes volt), vagy negatív (büntetést jelenthet, ha a cselekvés nem kívánt eredményre vezetett).
(policy): Az a stratégia vagy szabály, amely alapján az ügynök kiválasztja a cselekvéseket a környezet adott állapotában. Ez az, amit az ügynök az RL során optimalizálni próbál.
Q-érték (Q-value): Az adott cselekvés várható összesített jutalma egy adott állapotban. A Q-tanulás az RL egyik népszerű algoritmusa, amely során az ügynök Q-értékeket számít ki a különböző cselekvésekhez.

A megerősítéses tanulás folyamata

A megerősítéses tanulás alapvetően az alábbi folyamat szerint zajlik:

Állapot megfigyelése: Az ügynök észleli a környezet aktuális állapotát.
Cselekvés választása: Az ügynök a polcika alapján dönt egy cselekvésről.
Cselekvés végrehajtása: Az ügynök végrehajtja a kiválasztott cselekvést.
Jutalom és új állapot: A környezet válaszol a cselekvésre, jutalmat ad és az ügynök egy új állapotba kerül.
Tanulás és frissítés: Az ügynök a jutalom és az új állapot alapján módosítja a polcikáját, hogy a jövőben jobb döntéseket hozzon.

Ezt a folyamatot többször ismétli, amíg az ügynök megtanulja a legjobb cselekvéseket a hosszú távú jutalom maximalizálása érdekében.

Példák a megerősítéses tanulásra

Robotika: A megerősítéses tanulás segítségével a robotok képesek megtanulni különböző feladatokat, például járást, tárgyak mozgatását vagy autonóm navigációt.
Játékok: Az RL használatával mesterséges intelligencia képes megtanulni játszani és nyerni olyan komplex játékokban, mint a sakkozás, a Go, vagy akár a modern számítógépes játékok. Az AlphaGo, amelyet a Google DeepMind fejlesztett ki, az RL egyik híres alkalmazása, amely legyőzte a világ legjobb Go játékosait.
Autonóm járművek: Az önvezető autók az RL technikáit alkalmazhatják, hogy biztonságosan közlekedjenek, megtanulják felismerni az akadályokat és a legjobb útvonalakat válasszák.
Pénzügyek: Az RL algoritmusokat használják a pénzügyi piacokon arra, hogy optimális kereskedési stratégiákat alakítsanak ki, amelyek maximális profitot eredményeznek.

Fő algoritmusok

Q-learning: Az egyik legismertebb RL algoritmus, amely cselekvésekhez rendel Q-értékeket, és ezeket frissíti a cselekvések utáni jutalmak alapján. Az ügynök célja, hogy minden állapotban az optimális cselekvést válassza, amely a legnagyobb összesített jutalomhoz vezet.
SARSA (State-Action-Reward-State-Action): Ez egy on-policy algoritmus, amely a cselekvések láncolatát tanulja, ahelyett, hogy csak a végső jutalomra összpontosítana.
Deep Q-learning (DQN): Az RL és a mély tanulás kombinációja, amely neurális hálózatokat használ a Q-értékek becslésére, különösen akkor, amikor az állapotok száma túl nagy ahhoz, hogy hagyományos Q-learning technikákat használjunk.
Policy Gradient: Az RL olyan formája, ahol közvetlenül az optimális polcikát próbálják megtanulni a jutalmak függvényében. Az egyik legismertebb változata a Proximal Policy Optimization (PPO) algoritmus.

Kihívások

Exploráció és kihasználás közötti kompromisszum: Az RL-ben az ügynöknek egyensúlyt kell tartania a között, hogy új cselekvéseket próbál ki (exploráció) és a korábban megtanult legjobb cselekvések alkalmazása (exploitation). Ez egy fontos kihívás, hiszen a túlzott exploráció időpazarlás lehet, míg a túl korai exploitation helytelen stratégiákat eredményezhet.
Nagy állapottér: Ha a környezet nagyon összetett, és sok különböző állapot létezik, az RL algoritmusok nehezen kezelik a nagy állapottér keresését és hatékonyan tanulnak meg optimális polcikákat.
Hosszú távú jutalom: Az ügynöknek sokszor nem közvetlenül kap jutalmat a cselekvéseiért, hanem későbbi cselekvésekért. Ez megnehezíti a tanulási folyamatot, mert az ügynöknek vissza kell következtetnie, hogy mely korábbi cselekvések vezettek a pozitív eredményhez.

Összefoglalás

A megerősítéses tanulás egy rendkívül erőteljes és dinamikus gépi tanulási megközelítés, amely lehetővé teszi az ügynökök számára, hogy saját tapasztalataik alapján tanuljanak a környezetükről. Az RL technikák számos gyakorlati alkalmazásban bizonyították hatékonyságukat, legyen szó játékmenetről, robotikáról vagy autonóm járművekről. Azonban az RL területén még számos kihívás és fejlesztési lehetőség áll előttünk, amelyek tovább javíthatják a technológia hatékonyságát és alkalmazhatóságát.

angol: reinforcement learning (en)
orosz: обучение с подкреплением (ru) (obučenije s podkreplenijem)

További információk

megerősítéses tanulás - Értelmező szótár (MEK)
megerősítéses tanulás - Etimológiai szótár (UMIL)
megerősítéses tanulás - Szótár.net (hu-hu)
megerősítéses tanulás - DeepL (hu-de)
megerősítéses tanulás - Яндекс (hu-ru)
megerősítéses tanulás - Google (hu-en)
megerősítéses tanulás - Helyesírási szótár (MTA)
megerősítéses tanulás - Wikidata
megerősítéses tanulás - Wikipédia (magyar)