Opa pessoal, como a internet está cada vez mais merdificada, queria compartilhar como eu acho coisas na internet utilizando duas coisas, a lei dos grandes números e o Searx.
Primeiramente explicando o que é o SearXNG. Basicamente é um motor de meta-pesquisa, onde você pesquisa por ele para ele pesquisar em outros motores de pesquisa. Ele pode ser self-hosted ou dá para usar algumas instâncias públicas, como o searx.be e o paulgo.io.
Com isso, dá para usar diversos motores por trás, como o bing, o google, o yahoo, ou (hehehe) dá para utilizar diversos ao mesmo tempo. O bing e o yahoo estão devolvendo muito lixo, pelo que vi, então existem outras opções.
E onde entra a lei dos grandes números? Basicamente, se você tiver um grande número amostral, mais próximo você vai, pelo uso da média, encontrar do resultado esperado. Então, com mais motores de pesquisa (mesmo que alguns utilizem o mesmo motor de pesquisa por trás, existe algum tratamento diferente dos dados), maior é a chance de encontrar o resultado esperado.
Assim, eu uso da seguinte forma:
- Coloco para todas as linguagens
- Coloco uma grande quantidade de motores:
- brave
- duckduckgo
- google
- mojeek
- presearch
- qwant
- startpage
E configuro no librewolf com as extensões na loja e no android utilizo as strings de conexão:
- Para pesquisar: https:///search?q=%s
- Para o autocomplete: https:///autocompleter?q=%s
Aí quando pesquiso algo em português, normalmente acho na hora, mas qualquer coisa posso mudar ali no dropdown para só em português, em outras linguas também é tranquilo.
Então é isso, espero que tenham gostado do ted talk que ninguém pediu kkkkkk.
Aqui dá o mesmo problema quando eu entro no site do Qwant.
De vez em quando o google para de funcionar, ou outros param de funcionar, mas no geral, dá pra ter diversos rankings com diferentes filtros a partir da mesma fonte, startpage usa do google, mas com uns filtros e rankings diferentes, duckduckgo do bing, mas com umas coisas diferentes, etc, então não afeta muito se o google tá dando timeout, nunca notei muita diferença, essa agregação de diversos motores dá uma ajudada sempre nesse quesito. Desabilitando o google não dá muita diferença nos resultados, ele quase nunca tá entre os melhores resultados por "consenso".
Não reconfiguro muito não, acho que de cada vez uns 5 ou 6 estão funcionando, os outros sempre dão timeout ou estão com algum erro, só deixo lá e vou vendo pelo "consenso" dos que estão funcionando, parece sempre funcionar bem dessa maneira.
Eu uso as instâncias públicas, mas queria subir uma, hosteada 100% no brasil e tudo mais. Como ninguém subiu ainda uma brasileira, acho que pode ser uma boa, subir pro pessoal já pré configurado kkkk, mas sei nada de produção só podman compose up -d e boa sorte kkkk.
Às vezes penso em instalar o searxng aqui num orange pi, mas não sei se aguenta, e tenho medo de gastar muito tempo com isso à toa. Dá pra usar instâncias públicas, mas todas que já vi usam google junto, e não gosto da ideia de dar tráfego pra eles. Rodar uma pública brasileira seria legal mesmo, mas acho que também não tenho conhecimento pra ajudar. Rodo umas coisas aqui localmente, mas entendo nada principakmente da parte de segurança pra ter algo exposto ao público
Acho que o orange pi aguenta sim, é bem leve e tem um cache usando o valkey, tem o docker-compose com as configurações já prontas deles, testei no pc e funciona bem, é basicamente gerar uma chave e usar o docker ou o podman pra subir.
Isso de usar o google dá pra alterar na rodinha de configurações e em motores, aí só selecionar ou tirar os motores que quiser, as configurações ficam no browser mesmo.
Acho que vou testar de subir uma instância pública do searx, numa VM do cara lá do evento no MCTI.
Poxa, eu não sabia disso, obrigado
Assim vou acabar testando mesmo