html 🐤 Extração de documentos de documentos | Nullcore
Pule para o conteúdo principal

🐤 Extração de documentos de documentos

aviso

Este tutorial é uma contribuição da comunidade e não é suportado pela equipe Nullcore. Serve apenas como uma demonstração sobre como personalizar o Nullcore para o seu caso de uso específico. Quer contribuir? Confira o tutorial contribuinte.

🐤 Extração de documentos de documentos

Esta documentação fornece um guia passo a passo para integrar documentos com o Nullcore. Docling é uma biblioteca de processamento de documentos projetada para transformar uma ampla gama de formatos de arquivo - incluindo PDFs, documentos do Word, planilhas, HTML e imagens - em dados estruturados como JSON ou Markdown. Com suporte interno para detecção de layout, análise de tabela e processamento com reconhecimento de idiomas, a documentação de linhas de documentos para aplicativos de IA, como pesquisa, resumo e geração de recuperação, durante uma interface unificada e extensível.

Pré -requisitos

  • Abra a instância da Webui
  • Docker instalado em seu sistema
  • Docker Network criada para o Nullcore

Etapas de integração

Etapa 1: Execute o comando do Docker para documentar-serve

Docker Run -P 5001: 5001 -e docling_serve_enable_ui = true quay.io/docling-project/docling-serve

*Com suporte à GPU:

Docker Run--GPUS ALL -P 5001: 5001 -E docling_serve_enable_ui = true quay.io/docling-project/docling-serve-cu124

Etapa 2: Configure o Nullcore para usar documentos

  • Faça login na sua instância de webui aberto.
  • Navegue até oAdmin Panelmenu de configurações.
  • Clique emSettings
  • Clique noDocumentsguia.
  • Mude oDefaultsuspensão de mecanismo de extração de conteúdo paraDocling
  • Atualizar o URL do mecanismo de extração de contexto parahttp://host.docker.internal:5001
  • Salve as alterações.

(Opcional) Etapa 3: Configurar os recursos de descrição da imagem de Docling

  • noDocumentsguia:

  • AtivarDescribe Pictures in Documentsbotão.

  • Abaixo, escolha um modo de descrição:localouAPI

    • local: O modelo de visão será executado no mesmo contexto que a própria documentação
    • API: Docling fará uma chamada para um serviço/contêiner externo (ou seja, Ollama)
  • preencha umvalor do objetoconforme descrito emhttps://github.com/docling-project/docling-nserve/blob/main/docs/usage.md#picture-description-options

  • Salve as alterações.

    Verifique se o valor do objeto é um JSON válido! Exemplos de trabalho abaixo:

    image

{
"Repo_id" "Huggingfacetb/smolvlm-256m-Instruct", Assim,
"generation_config" {
"max_new_tokens" 200, Assim,
"Do_sample" falso
, Assim,
"incitar" "Descreva esta imagem em algumas frases".

image

{
"Url" "http: // localhost: 11434/v1/bate -papo/conclusões", Assim,
"Params" {
"modelo" "QWEN2.5VL: 7B-Q4_K_M"
, Assim,
"tempo esgotado" 60, Assim,
"incitar" "Descreva esta imagem em grandes detalhes."

Verificando a documentação no Docker

Para verificar se a documentação está funcionando corretamente em um ambiente do Docker, você pode seguir estas etapas:

1. Inicie o contêiner Docling Docker

Primeiro, verifique se o contêiner Docling Docker está em execução. Você pode iniciá -lo usando o seguinte comando:

Docker Run -P 5001: 5001 -e docling_serve_enable_ui = true quay.io/docling-project/docling-serve

Este comando inicia o contêiner Docling e mapeia a porta 5001 do contêiner para a porta 5001 em sua máquina local.

2. Verifique se o servidor está em execução

  • Vá parahttp://127.0.0.1:5001/ui/
  • O URL deve levar a uma interface do usuário a usar documentos

3. Verifique a integração

  • Você pode tentar fazer upload de alguns arquivos através da interface do usuário e ele deve retornar a saída no formato MD ou no formato desejado

Conclusão

A integração de documentos com o Nullcore é uma maneira simples e eficaz de aprimorar os recursos de processamento de documentos e extração de conteúdo. Seguindo as etapas deste guia, você pode configurar documentos como o mecanismo de extração padrão e verificar que está funcionando sem problemas em um ambiente do Docker. Uma vez configurado, a documentação permite a análise de documentos poderosos e agnósticos de formato para suportar recursos de IA mais avançados no Nullcore.