Siri

Siri

Java
Spark
License

Uma API REST para realizar crawling de páginas web, desenvolvida em Java utilizando o framework Spark. Este projeto permite extrair e processar informações de sites de forma eficiente e escalável.

🚀 Funcionalidades

  • 🔍 Crawling de páginas web: Extrai informações de todas os sublinks de uma página especificada, permanecendo no mesmo domínio.
  • 🌐 API RESTful: Endpoints para iniciar e gerenciar processos de crawling.

🛡️ Requisitos

Certifique-se de ter os seguintes softwares instalados no seu ambiente:

  • Java 22+
  • Maven 3.6+
  • Git

Além disso, certifique-se de definir a variável de ambiente BASE_URL para informar ao programa qual site será usado como base.

🏗️ Como executar o projeto

  1. Clone o repositório:

    git clone https://github.com/hentzrafael/siri.git
    cd siri
    
  2. Compile o projeto:

    mvn clean install
    
  3. Inicie a aplicação:

    java -jar target/siri-1.0-SNAPSHOT.jar
    
  4. Acesse a API:
    A aplicação será iniciada no endereço http://localhost:4567.

📚 Endpoints

GET /crawl/:id

Verifica o status de um webcrawl com o id especificado.

Resposta:

{
  "id": "<id>",
  "status": "active",
  "urls":[
      "http://example.com",
    ]
}

POST /crawl

Inicia um processo de crawling com base na keyword enviada.

Parâmetros:

  • keyword (string) - Keyword a ser processada.

Exemplo de requisição:

{
  "keyword": "example"
}

Resposta:

{
  "id": "abcd1234"
}

🧪 Testes

Execute os testes unitários com o comando:

mvn test

📜 Licença

Este projeto é licenciado sob a licença MIT.

✨ Contribuições

Contribuições são bem-vindas! Siga as etapas abaixo:

  1. Faça um fork do projeto.
  2. Crie uma branch para sua feature: git checkout -b minha-feature.
  3. Realize suas alterações e faça commit: git commit -m 'Adiciona minha feature'.
  4. Envie suas alterações: git push origin minha-feature.
  5. Abra um Pull Request.

📫 Contato

Se tiver dúvidas ou sugestões, entre em contato: