🐤 Extração de documentos de documentos
Este tutorial é uma contribuição da comunidade e não é suportado pela equipe Nullcore. Serve apenas como uma demonstração sobre como personalizar o Nullcore para o seu caso de uso específico. Quer contribuir? Confira o tutorial contribuinte.
🐤 Extração de documentos de documentos
Esta documentação fornece um guia passo a passo para integrar documentos com o Nullcore. Docling é uma biblioteca de processamento de documentos projetada para transformar uma ampla gama de formatos de arquivo - incluindo PDFs, documentos do Word, planilhas, HTML e imagens - em dados estruturados como JSON ou Markdown. Com suporte interno para detecção de layout, análise de tabela e processamento com reconhecimento de idiomas, a documentação de linhas de documentos para aplicativos de IA, como pesquisa, resumo e geração de recuperação, durante uma interface unificada e extensível.
Pré -requisitos
- Abra a instância da Webui
- Docker instalado em seu sistema
- Docker Network criada para o Nullcore
Etapas de integração
Etapa 1: Execute o comando do Docker para documentar-serve
Docker Run -P 5001: 5001 -e docling_serve_enable_ui = true quay.io/docling-project/docling-serve
*Com suporte à GPU:
Docker Run--GPUS ALL -P 5001: 5001 -E docling_serve_enable_ui = true quay.io/docling-project/docling-serve-cu124
Etapa 2: Configure o Nullcore para usar documentos
- Faça login na sua instância de webui aberto.
- Navegue até o
Admin Panel
menu de configurações. - Clique em
Settings
- Clique no
Documents
guia. - Mude o
Default
suspensão de mecanismo de extração de conteúdo paraDocling
- Atualizar o URL do mecanismo de extração de contexto para
http://host.docker.internal:5001
- Salve as alterações.
(Opcional) Etapa 3: Configurar os recursos de descrição da imagem de Docling
-
no
Documents
guia: -
Ativar
Describe Pictures in Documents
botão. -
Abaixo, escolha um modo de descrição:
local
ouAPI
local
: O modelo de visão será executado no mesmo contexto que a própria documentaçãoAPI
: Docling fará uma chamada para um serviço/contêiner externo (ou seja, Ollama)
-
preencha umvalor do objetoconforme descrito emhttps://github.com/docling-project/docling-nserve/blob/main/docs/usage.md#picture-description-options
-
Salve as alterações.
Verifique se o valor do objeto é um JSON válido! Exemplos de trabalho abaixo:
{
"Repo_id" "Huggingfacetb/smolvlm-256m-Instruct", Assim,
"generation_config" {
"max_new_tokens" 200, Assim,
"Do_sample" falso
, Assim,
"incitar" "Descreva esta imagem em algumas frases".
{
"Url" "http: // localhost: 11434/v1/bate -papo/conclusões", Assim,
"Params" {
"modelo" "QWEN2.5VL: 7B-Q4_K_M"
, Assim,
"tempo esgotado" 60, Assim,
"incitar" "Descreva esta imagem em grandes detalhes."
Verificando a documentação no Docker
Para verificar se a documentação está funcionando corretamente em um ambiente do Docker, você pode seguir estas etapas:
1. Inicie o contêiner Docling Docker
Primeiro, verifique se o contêiner Docling Docker está em execução. Você pode iniciá -lo usando o seguinte comando:
Docker Run -P 5001: 5001 -e docling_serve_enable_ui = true quay.io/docling-project/docling-serve
Este comando inicia o contêiner Docling e mapeia a porta 5001 do contêiner para a porta 5001 em sua máquina local.
2. Verifique se o servidor está em execução
- Vá para
http://127.0.0.1:5001/ui/
- O URL deve levar a uma interface do usuário a usar documentos
3. Verifique a integração
- Você pode tentar fazer upload de alguns arquivos através da interface do usuário e ele deve retornar a saída no formato MD ou no formato desejado
Conclusão
A integração de documentos com o Nullcore é uma maneira simples e eficaz de aprimorar os recursos de processamento de documentos e extração de conteúdo. Seguindo as etapas deste guia, você pode configurar documentos como o mecanismo de extração padrão e verificar que está funcionando sem problemas em um ambiente do Docker. Uma vez configurado, a documentação permite a análise de documentos poderosos e agnósticos de formato para suportar recursos de IA mais avançados no Nullcore.