Reduza o uso da RAM
Se você estiver implantando essa imagem em um ambiente com restrição de aríete, há algumas coisas que você pode fazer para diminuir a imagem.
Em um Raspberry Pi 4 (ARM64) com a versão v0.3.10, isso foi capaz de reduzir o consumo de memória ocioso de> 1 GB para ~ 200 MB (conforme observado comdocker container stats
Tldr
Defina as seguintes variáveis de ambiente (ou as respectivas configurações da interface do usuário para uma implantação existente):RAG_EMBEDDING_ENGINE: ollama
, Assim,AUDIO_STT_ENGINE: openai
Explicação mais longa
Grande parte do consumo de memória se deve a modelos ML carregados. Mesmo se você estiver usando um modelo de idioma externo (OpenAI ou Ollama não controlado), muitos modelos podem ser carregados para fins adicionais.
A partir da v0.3.10, isso inclui:
- Spean-to-text (sussurro por padrão)
- Motor de incorporação de RAG (padrão para o modelo local de setencetransformers)
- Motor de geração de imagens (desativado por padrão)
Os 2 primeiros estão ativados e definidos para modelos locais por padrão. Você pode alterar os modelos no painel de administração (categoria RAG: documentos, defini-lo como Ollama ou Openai, seção de fala para texto: áudio, trabalhar com o OpenAI ou Webapi).
Se você estiver implantando uma imagem fresca do Docker, também poderá defini -las com as seguintes variáveis de ambiente:RAG_EMBEDDING_ENGINE: ollama
, Assim,AUDIO_STT_ENGINE: openai
. Observe que essas variáveis de ambiente não têm efeito se umconfig.json
já existe.