Python JavaScript TypeScript Linux FastAPI Node.js Angular Django Vue.js Guias Práticos de Python Dicionário

Tokenization

Tokenization é o processo de dividir um texto em unidades menores, chamadas tokens, que podem ser palavras, frases ou subpalavras. É um passo essencial no pré-processamento de dados para NLP.

Exemplo: A frase 'Olá, mundo!' pode ser tokenizada em ['Olá', ',', 'mundo', '!'].

Wikipedia: Tokenization (NLP)