Főnév

overfitting (tsz. overfittings)

  1. (matematika, informatika, mesterséges intelligencia) Az overfitting, magyarul túltanulás, egy olyan probléma a gépi tanulásban és a mesterséges intelligencia modellekben, amikor a modell túlságosan jól alkalmazkodik a tanító adatokhoz, de emiatt kevésbé hatékony a valós, ismeretlen adatokkal való általánosítás során. Ez azt jelenti, hogy a modell nem tanul meg általános mintázatokat, hanem inkább „megjegyzi” a tanító adatkészlet speciális jellemzőit, beleértve a zajokat vagy véletlenszerű variációkat is. Emiatt a modell gyengén teljesít új, még nem látott adatokon.

Hogyan jön létre az overfitting?

Az overfitting általában akkor fordul elő, ha a modell túl bonyolult a rendelkezésre álló tanító adatokhoz képest. Ez azt jelenti, hogy a modell túl sok paramétert használ, vagy túl nagy szabadságfokkal rendelkezik a tanító adatok megértéséhez. Ilyenkor a modell nemcsak a lényegi mintázatokat tanulja meg, hanem a véletlenszerű zajt és eltéréseket is, amelyek a tanító adatkészletben jelen vannak, de nem relevánsak a feladat szempontjából.

Az overfitting problémája különösen nagy a mély neurális hálózatoknál és más komplex modelleknél, ahol sok paraméter áll rendelkezésre. Az alábbi helyzetek is növelhetik az overfitting esélyét:

  • Túl komplex modell: Ha a modell túl sok réteget, neuront vagy paramétert használ a feladathoz képest, akkor nagyobb az esélye, hogy túl jól illeszkedik a tanító adatokra, és túl sok részletet „megjegyez”.
  • Kevés tanító adat: Ha az adatok mennyisége túl kicsi a modellhez képest, akkor a modell könnyen túlilleszkedhet az adott adatokra, mert a tanításhoz használt minta nem reprezentálja jól a problémateret.
  • Nem megfelelő tanítási idő: Ha a modellt túl hosszú ideig tanítják a tanító adatokon, az is elősegítheti, hogy a modell megtanulja a specifikus adatpontokat, ahelyett, hogy általános szabályokat ismerne fel.

Az overfitting jelei

Az overfitting felismeréséhez fontos követni a modell teljesítményét nemcsak a tanító adatokon, hanem egy külön tesztkészleten is, amelyet a modell nem látott a tanítás során. Az overfitting általában az alábbi jelekkel ismerhető fel:

  1. Kiváló teljesítmény a tanító adatokon: Ha a modell nagyon jó teljesítményt nyújt a tanító adatokon, például közel 100%-os pontosságot ér el, de gyengén teljesít a tesztkészleten, az overfittingre utalhat.
  2. Gyenge teljesítmény a tesztkészleten: Amikor a modell jelentősen rosszabbul teljesít a tesztkészleten (vagy validációs készleten), mint a tanító adatokon, az arra utalhat, hogy a modell nem tudja általánosítani a tanult mintákat.
  3. Magas variancia: A modell predikciói nagyon eltérhetnek az új adatokon, azaz a modell „bizonytalan” az új minták esetében. Ez azért van, mert a modell túlságosan érzékeny a tanító adatok egyedi jellemzőire.

Példa

Tegyük fel, hogy egy modellt tanítunk arra, hogy kézzel írt számokat osztályozzon egy képeken alapuló adatkészleten, mondjuk a híres MNIST adatkészleten. Ha a modell túlkomplikált, akkor lehetséges, hogy nemcsak a számjegyek általános mintázatait tanulja meg, hanem például a háttér zaját, egyedi ceruzavonalakat vagy egyéb olyan jellemzőket is, amelyek nem relevánsak a számjegyek felismeréséhez.

Hogyan kezelhető az overfitting?

Az overfitting elkerülése és a modell általánosítási képességének javítása érdekében számos módszer létezik:

  1. Több adat gyűjtése: Az egyik legegyszerűbb, de gyakran legnehezebb megoldás több tanító adat beszerzése. Ha több adat áll rendelkezésre, a modell jobb mintázatokat tud tanulni, és kevésbé valószínű, hogy a zajokat is megtanulja.
  2. Kisebb, egyszerűbb modell használata: Az egyszerűbb modellek kevesebb paraméterrel dolgoznak, és kevésbé hajlamosak a túltanulásra. Az egyszerűbb modell nem képes minden egyes adatpontra tökéletesen illeszkedni, de cserébe jobban általánosít új adatokon.
  3. Regularizáció: A regularizáció egy technika, amely arra szolgál, hogy korlátozza a modell szabadságfokát, ezáltal csökkentve az overfitting kockázatát. Két fő típusa a L1 regularizáció (Lasso) és L2 regularizáció (Ridge), amelyek hozzáadott büntetéseket alkalmaznak a modell súlyaira, így a súlyok nem nőhetnek túl naggyá.
  4. Dropout: A dropout egy gyakran használt módszer a neurális hálózatoknál, ahol véletlenszerűen “kikapcsolunk” neuronjait az egyes tanítási lépések során. Ez csökkenti a hálózat kapacitását, és segít megelőzni, hogy a modell túlkomplex mintákat tanuljon meg.
  5. Korai megállítás (Early Stopping): A korai megállítás egy olyan módszer, ahol figyelemmel kísérjük a modell teljesítményét a validációs adatokon, és leállítjuk a tréninget, ha a teljesítmény elkezd romlani. Így megelőzhető, hogy a modell túl sokáig tanuljon, ami overfittinget okozna.
  6. Keresztvalidáció (Cross-validation): A keresztvalidáció során az adatok egy részét külön tesztkészletként használjuk, hogy rendszeresen ellenőrizzük a modell teljesítményét, és megelőzzük a túlilleszkedést.
  7. Adatbővítés (Data Augmentation): Az adatbővítés olyan technikák összessége, amelyekkel mesterségesen növelhetjük a tanító adatok mennyiségét. Például képfeldolgozásnál különböző módosításokat végezhetünk a képeken (forgatás, tükrözés, zaj hozzáadása), hogy a modell változatosabb adatokon tanuljon.

Összefoglalás

Az overfitting komoly probléma lehet a gépi tanulási modellek esetében, mert akadályozza a modell általánosítási képességét. Noha a modell kiválóan teljesíthet a tanító adatokon, az új, ismeretlen adatokon rosszul szerepelhet, mert nem tanul meg általános mintázatokat. Az overfitting kezelése érdekében számos technika létezik, beleértve a modellek egyszerűsítését, a regularizációt, a korai megállítást és az adatbővítést. A cél, hogy olyan modellt hozzunk létre, amely jól teljesít a valós világban is, nem csak a tanító adatokon.