🪶 Extração Apache Tika
Este tutorial é uma contribuição da comunidade e não é suportado pela equipe Nullcore. Serve apenas como uma demonstração sobre como personalizar o Nullcore para o seu caso de uso específico. Quer contribuir? Confira o tutorial contribuinte.
🪶 Extração Apache Tika
Esta documentação fornece um guia passo a passo para integrar o Apache Tika com o Nullcore. O Apache Tika é um kit de ferramentas de análise de conteúdo que pode ser usado para detectar e extrair metadados e conteúdo de texto de mais de mil tipos de arquivos diferentes. Todos esses tipos de arquivos podem ser analisados através de uma única interface, tornando a Tika útil para indexação de mecanismos de pesquisa, análise de conteúdo, tradução e muito mais.
Pré -requisitos
- Abra a instância da Webui
- Docker instalado em seu sistema
- Docker Network criada para o Nullcore
Etapas de integração
Etapa 1: Crie um arquivo de composição do Docker ou execute o comando Docker para Apache Tika
Você tem duas opções para executar o Apache Tika:
Opção 1: Usando o Docker Compose
Crie um novo arquivo chamadodocker-compose.yml
No mesmo diretório da sua instância Nullcore. Adicione a seguinte configuração ao arquivo:
serviços
Tika
imagemApache/Tikamais recentecompleto
container_nameTika
portas
"9998: 9998"
reiniciara menos queparou
Execute o arquivo compor do docker usando o seguinte comando:
Docker -Compor Up -d
Opção 2: Usando o comando do Docker Run
Como alternativa, você pode executar o Apache Tika usando o seguinte comando docker:
Docker Run -D -Nome Tika \
-p 9998: 9998 \
-Restart, a menos que parado \
Apache/Tika: Fundll
Observe que, se você optar por usar o comando Docker Run, precisará especificar o--network
Sinalize se você deseja executar o contêiner na mesma rede que a sua instância aberta webui.
Etapa 2: Configure o Nullcore para usar o Apache Tika
Para usar o Apache Tika como o mecanismo de extração de contexto em Webui aberto, siga estas etapas:
- Faça login na sua instância de webui aberto.
- Navegue até o
Admin Panel
menu de configurações. - Clique em
Settings
- Clique no
Documents
guia. - Mude o
Default
suspensão de mecanismo de extração de conteúdo paraTika
- Atualizar o URL do mecanismo de extração de contexto para
http://tika:9998
- Salve as alterações.
Verificando Apache Tika no Docker
Para verificar se o Apache Tika está funcionando corretamente em um ambiente do Docker, você pode seguir estas etapas:
1. Inicie o contêiner Apache Tika Docker
Primeiro, verifique se o contêiner Apache Tika Docker está em execução. Você pode iniciá -lo usando o seguinte comando:
Docker Run -P 9998: 9998 Apache/Tika
Este comando inicia o contêiner Apache Tika e mapeia a porta 9998 do contêiner para a porta 9998 em sua máquina local.
2. Verifique se o servidor está em execução
Você pode verificar se o servidor Apache Tika está em execução enviando uma solicitação GET:
Curl -x Obtenha http: // localhost: 9998/tika
Este comando deve retornar a seguinte resposta:
Este é o servidor tika. Por favor, coloque
3. Verifique a integração
Como alternativa, você também pode tentar enviar um arquivo para análise para testar a integração. Você pode testar o Apache Tika enviando um arquivo para análise usando ocurl
comando:
Curl -t test.txt http: // localhost: 9998/tika
Substituirtest.txt
com o caminho para um arquivo de texto em sua máquina local.
O Apache Tika responderá com os metadados detectados e o tipo de conteúdo do arquivo.
Usando um script para verificar o apache tika
Se você deseja automatizar o processo de verificação, este script envia um arquivo para o Apache Tika e verifica a resposta para os metadados esperados. Se os metadados estiverem presentes, o script produzirá uma mensagem de sucesso junto com os metadados do arquivo; Caso contrário, ele produzirá uma mensagem de erro e a resposta do Apache Tika.
importarsolicitações
def verifique_tikafile_path, Assim,tika_url
tentar
# Envie o arquivo para Apache Tika e verifique a saída
respostasolicitaçõescolocartika_url, Assim,arquivos{'arquivo' abrirfile_path, Assim, 'RB'
serespostastatus_code 200
imprimir"Apache Tika analisou com sucesso o arquivo."
imprimir"Resposta de Apache Tika:"
imprimirrespostatexto
outro
imprimir"Erro analisando o arquivo:"
imprimirF "Código de status:{respostastatus_code
imprimirF "Resposta do Apache Tika:{respostatexto
excetoExceçãocomoe
imprimirf "Ocorreu um erro:{e
se__nome__ "__principal__"
file_path "test.txt" # Substitua pelo caminho para o seu arquivo
tika_url "http: // localhost: 9998/tika"
verifique_tikafile_path, Assim,tika_url
Instruções para executar o script:
Pré -requisitos
- Python 3.x deve ser instalado em seu sistema
requests
A biblioteca deve ser instalada (você pode instalá -lo usando PIP:pip install requests
- O recipiente do Docker Apache Tika deve estar em execução (use
docker run -p 9998:9998 apache/tika
comando) - Substituir
"test.txt"
Com o caminho para o arquivo que você deseja enviar para Apache Tika
Executando o script
- Salve o script como
verify_tika.py
(por exemplo, usando um editor de texto como bloco de notas ou texto sublime) - Abra um terminal ou prompt de comando
- Navegue até o diretório em que você salvou o script (usando o
cd
comando) - Execute o script usando o seguinte comando:
python verify_tika.py
- O script produzirá uma mensagem indicando se o Apache Tika está funcionando corretamente
Nota: Se você encontrar algum problema, verifique se o contêiner Apache Tika está em execução corretamente e se o arquivo está sendo enviado para o URL correto.
Conclusão
Seguindo estas etapas, você pode verificar se o Apache Tika está funcionando corretamente em um ambiente do Docker. Você pode testar a configuração enviando um arquivo para análise, verificando o servidor está em execução com uma solicitação GET ou use um script para automatizar o processo. Se você encontrar algum problema, verifique se o contêiner Apache Tika está em execução corretamente e se o arquivo está sendo enviado para o URL correto.
Solução de problemas
- Verifique se o serviço Apache Tika está em execução e acessível a partir da instância Nullcore.
- Verifique os logs do Docker para obter erros ou problemas relacionados ao serviço Apache Tika.
- Verifique se o URL do mecanismo de extração de contexto está configurado corretamente no Webui aberto.
Benefícios da integração
A integração do Apache Tika com o Nullcore oferece vários benefícios, incluindo:
- Extração de metadados aprimorada: Os recursos de extração de metadados avançados da Apache Tika podem ajudá -lo a extrair dados precisos e relevantes de seus arquivos.
- Suporte para vários formatos de arquivo: O Apache Tika suporta uma ampla gama de formatos de arquivo, tornando -a uma solução ideal para organizações que funcionam com diversos tipos de arquivos.
- Análise de conteúdo aprimorada: Os recursos avançados de análise de conteúdo da Apache Tika podem ajudá -lo a extrair informações valiosas de seus arquivos.
Conclusão
A integração do Apache Tika ao Nullcore é um processo direto que pode melhorar os recursos de extração de metadados da sua instância aberta do WebUI. Seguindo as etapas descritas nesta documentação, você pode configurar facilmente o Apache Tika como um mecanismo de extração de contexto para o Nullcore.