Tokenizáció nyelvi feldolgozás
esetében a szöveg kisebb egységekre, úgynevezett tokenekre bontását jelenti.
Ez egy olyan folyamat, amely során a szöveges adatokat, például egy mondatot
vagy egy dokumentumot felbontják kisebb egységekre, amelyeket „tokeneknek”
nevezünk. A tokenizáció fontos szerepet játszik a természetes nyelv
feldolgozásában, mivel így az adatokat könnyebben kezelhető egységekre
bontja.