Como implantar o PLN: introdução

blog-thumb-community-discussion.png

O lançamento do Elastic Stack 8.0 apresentou a capacidade de carregar modelos de machine learning PyTorch no Elasticsearch para fornecer um processamento de linguagem natural (PLN) moderno no Elastic Stack. O PLN possibilita oportunidades de extrair informações, classificar texto e oferecer uma relevância de busca melhor por meio de vetores densos e busca aproximada de vizinho mais próximo.

Nesta série do blog, que é dividida em várias partes, mostraremos exemplos completos usando vários modelos de PLN do PyTorch.

Parte 1: Como implantar incorporações de texto e busca vetorial
Parte 2: Reconhecimento de entidades nomeadas (REN)
Parte 3: Análise de sentimentos

Em cada exemplo, usaremos um modelo de PLN criado previamente com base no hub de modelo do Hugging Face. Então, seguiremos as instruções documentadas do Elastic para implantar um modelo de PLN e adicionar uma inferência de PLN a uma pipeline de ingestão.  Como é sempre uma boa ideia começar com um caso de uso definido e uma compreensão dos dados de texto a serem processados no modelo, começaremos definindo o objetivo de usar o PLN e um conjunto de dados compartilhados para qualquer pessoa tentar.

Como preparação para o exemplo de PLN, precisaremos de um cluster do Elasticsearch que execute pelo menos a versão 8.0, um nó de ML com pelo menos 2 GB de RAM. Para o exemplo de reconhecimento de entidades nomeadas (REN), usaremos o plugin mapper-annotated-text necessário. Uma das maneiras mais fáceis de começar é usar como referência esses exemplos de PLN com seu próprio cluster de avaliação gratuita de 14 dias no Elastic Cloud. As avaliações de nuvem podem ser ampliadas até o máximo de 2 GB de nós de ML, o que permitirá a implantação de um ou dois exemplos a qualquer momento nesta série do blog dividida em partes.