html 🪶 Apache Tika Extração | Nullcore
Pule para o conteúdo principal

🪶 Extração Apache Tika

aviso

Este tutorial é uma contribuição da comunidade e não é suportado pela equipe Nullcore. Serve apenas como uma demonstração sobre como personalizar o Nullcore para o seu caso de uso específico. Quer contribuir? Confira o tutorial contribuinte.

🪶 Extração Apache Tika

Esta documentação fornece um guia passo a passo para integrar o Apache Tika com o Nullcore. O Apache Tika é um kit de ferramentas de análise de conteúdo que pode ser usado para detectar e extrair metadados e conteúdo de texto de mais de mil tipos de arquivos diferentes. Todos esses tipos de arquivos podem ser analisados ​​através de uma única interface, tornando a Tika útil para indexação de mecanismos de pesquisa, análise de conteúdo, tradução e muito mais.

Pré -requisitos

  • Abra a instância da Webui
  • Docker instalado em seu sistema
  • Docker Network criada para o Nullcore

Etapas de integração

Etapa 1: Crie um arquivo de composição do Docker ou execute o comando Docker para Apache Tika

Você tem duas opções para executar o Apache Tika:

Opção 1: Usando o Docker Compose

Crie um novo arquivo chamadodocker-compose.ymlNo mesmo diretório da sua instância Nullcore. Adicione a seguinte configuração ao arquivo:

serviços
Tika
imagemApache/Tikamais recentecompleto
container_nameTika
portas
"9998: 9998"
reiniciara menos queparou

Execute o arquivo compor do docker usando o seguinte comando:

Docker -Compor Up -d

Opção 2: Usando o comando do Docker Run

Como alternativa, você pode executar o Apache Tika usando o seguinte comando docker:

Docker Run -D -Nome Tika \
-p 9998: 9998 \
-Restart, a menos que parado \
Apache/Tika: Fundll

Observe que, se você optar por usar o comando Docker Run, precisará especificar o--networkSinalize se você deseja executar o contêiner na mesma rede que a sua instância aberta webui.

Etapa 2: Configure o Nullcore para usar o Apache Tika

Para usar o Apache Tika como o mecanismo de extração de contexto em Webui aberto, siga estas etapas:

  • Faça login na sua instância de webui aberto.
  • Navegue até oAdmin Panelmenu de configurações.
  • Clique emSettings
  • Clique noDocumentsguia.
  • Mude oDefaultsuspensão de mecanismo de extração de conteúdo paraTika
  • Atualizar o URL do mecanismo de extração de contexto parahttp://tika:9998
  • Salve as alterações.

Verificando Apache Tika no Docker

Para verificar se o Apache Tika está funcionando corretamente em um ambiente do Docker, você pode seguir estas etapas:

1. Inicie o contêiner Apache Tika Docker

Primeiro, verifique se o contêiner Apache Tika Docker está em execução. Você pode iniciá -lo usando o seguinte comando:

Docker Run -P 9998: 9998 Apache/Tika

Este comando inicia o contêiner Apache Tika e mapeia a porta 9998 do contêiner para a porta 9998 em sua máquina local.

2. Verifique se o servidor está em execução

Você pode verificar se o servidor Apache Tika está em execução enviando uma solicitação GET:

Curl -x Obtenha http: // localhost: 9998/tika

Este comando deve retornar a seguinte resposta:

Este é o servidor tika. Por favor, coloque

3. Verifique a integração

Como alternativa, você também pode tentar enviar um arquivo para análise para testar a integração. Você pode testar o Apache Tika enviando um arquivo para análise usando ocurlcomando:

Curl -t test.txt http: // localhost: 9998/tika

Substituirtest.txtcom o caminho para um arquivo de texto em sua máquina local.

O Apache Tika responderá com os metadados detectados e o tipo de conteúdo do arquivo.

Usando um script para verificar o apache tika

Se você deseja automatizar o processo de verificação, este script envia um arquivo para o Apache Tika e verifica a resposta para os metadados esperados. Se os metadados estiverem presentes, o script produzirá uma mensagem de sucesso junto com os metadados do arquivo; Caso contrário, ele produzirá uma mensagem de erro e a resposta do Apache Tika.

importarsolicitações

def verifique_tikafile_path, Assim,tika_url
tentar
# Envie o arquivo para Apache Tika e verifique a saída
respostasolicitaçõescolocartika_url, Assim,arquivos{'arquivo' abrirfile_path, Assim, 'RB'

serespostastatus_code 200
imprimir"Apache Tika analisou com sucesso o arquivo."
imprimir"Resposta de Apache Tika:"
imprimirrespostatexto
outro
imprimir"Erro analisando o arquivo:"
imprimirF "Código de status:{respostastatus_code
imprimirF "Resposta do Apache Tika:{respostatexto
excetoExceçãocomoe
imprimirf "Ocorreu um erro:{e

se__nome__ "__principal__"
file_path "test.txt" # Substitua pelo caminho para o seu arquivo
tika_url "http: // localhost: 9998/tika"

verifique_tikafile_path, Assim,tika_url

Instruções para executar o script:

Pré -requisitos

  • Python 3.x deve ser instalado em seu sistema
  • requestsA biblioteca deve ser instalada (você pode instalá -lo usando PIP:pip install requests
  • O recipiente do Docker Apache Tika deve estar em execução (usedocker run -p 9998:9998 apache/tikacomando)
  • Substituir"test.txt"Com o caminho para o arquivo que você deseja enviar para Apache Tika

Executando o script

  1. Salve o script comoverify_tika.py(por exemplo, usando um editor de texto como bloco de notas ou texto sublime)
  2. Abra um terminal ou prompt de comando
  3. Navegue até o diretório em que você salvou o script (usando ocdcomando)
  4. Execute o script usando o seguinte comando:python verify_tika.py
  5. O script produzirá uma mensagem indicando se o Apache Tika está funcionando corretamente

Nota: Se você encontrar algum problema, verifique se o contêiner Apache Tika está em execução corretamente e se o arquivo está sendo enviado para o URL correto.

Conclusão

Seguindo estas etapas, você pode verificar se o Apache Tika está funcionando corretamente em um ambiente do Docker. Você pode testar a configuração enviando um arquivo para análise, verificando o servidor está em execução com uma solicitação GET ou use um script para automatizar o processo. Se você encontrar algum problema, verifique se o contêiner Apache Tika está em execução corretamente e se o arquivo está sendo enviado para o URL correto.

Solução de problemas

  • Verifique se o serviço Apache Tika está em execução e acessível a partir da instância Nullcore.
  • Verifique os logs do Docker para obter erros ou problemas relacionados ao serviço Apache Tika.
  • Verifique se o URL do mecanismo de extração de contexto está configurado corretamente no Webui aberto.

Benefícios da integração

A integração do Apache Tika com o Nullcore oferece vários benefícios, incluindo:

  • Extração de metadados aprimorada: Os recursos de extração de metadados avançados da Apache Tika podem ajudá -lo a extrair dados precisos e relevantes de seus arquivos.
  • Suporte para vários formatos de arquivo: O Apache Tika suporta uma ampla gama de formatos de arquivo, tornando -a uma solução ideal para organizações que funcionam com diversos tipos de arquivos.
  • Análise de conteúdo aprimorada: Os recursos avançados de análise de conteúdo da Apache Tika podem ajudá -lo a extrair informações valiosas de seus arquivos.

Conclusão

A integração do Apache Tika ao Nullcore é um processo direto que pode melhorar os recursos de extração de metadados da sua instância aberta do WebUI. Seguindo as etapas descritas nesta documentação, você pode configurar facilmente o Apache Tika como um mecanismo de extração de contexto para o Nullcore.