Tokenization
Tokenization é o processo de dividir um texto em unidades menores, chamadas tokens, que podem ser palavras, frases ou subpalavras. É um passo essencial no pré-processamento de dados para NLP.
Exemplo: A frase 'Olá, mundo!' pode ser tokenizada em ['Olá', ',', 'mundo', '!'].