Siri

Uma API REST para realizar crawling de páginas web, desenvolvida em Java utilizando o framework Spark. Este projeto permite extrair e processar informações de sites de forma eficiente e escalável.

🚀 Funcionalidades

🔍 Crawling de páginas web: Extrai informações de todas os sublinks de uma página especificada, permanecendo no mesmo domínio.
🌐 API RESTful: Endpoints para iniciar e gerenciar processos de crawling.

🛡️ Requisitos

Certifique-se de ter os seguintes softwares instalados no seu ambiente:

Java 22+
Maven 3.6+
Git

Além disso, certifique-se de definir a variável de ambiente BASE_URL para informar ao programa qual site será usado como base.

🏗️ Como executar o projeto

Clone o repositório:

git clone https://github.com/hentzrafael/siri.git
cd siri

Compile o projeto:
```
mvn clean install
```
Inicie a aplicação:
```
java -jar target/siri-1.0-SNAPSHOT.jar
```
Acesse a API:
A aplicação será iniciada no endereço http://localhost:4567.

📚 Endpoints

GET /crawl/:id

Verifica o status de um webcrawl com o id especificado.

Resposta:

{
  "id": "<id>",
  "status": "active",
  "urls":[
      "http://example.com",
    ]
}

POST /crawl

Inicia um processo de crawling com base na keyword enviada.

Parâmetros:

keyword (string) - Keyword a ser processada.

Exemplo de requisição:

{
  "keyword": "example"
}

Resposta:

{
  "id": "abcd1234"
}

🧪 Testes

Execute os testes unitários com o comando:

mvn test

📜 Licença

Este projeto é licenciado sob a licença MIT.

✨ Contribuições

Contribuições são bem-vindas! Siga as etapas abaixo:

Faça um fork do projeto.
Crie uma branch para sua feature: git checkout -b minha-feature.
Realize suas alterações e faça commit: git commit -m 'Adiciona minha feature'.
Envie suas alterações: git push origin minha-feature.
Abra um Pull Request.

📫 Contato

Se tiver dúvidas ou sugestões, entre em contato:

Email: hentz.dev@gmail.com
LinkedIn: hentzrafael