Uma API REST para realizar crawling de páginas web, desenvolvida em Java utilizando o framework Spark. Este projeto permite extrair e processar informações de sites de forma eficiente e escalável.
Certifique-se de ter os seguintes softwares instalados no seu ambiente:
Além disso, certifique-se de definir a variável de ambiente BASE_URL para informar ao programa qual site será usado como base.
Clone o repositório:
git clone https://github.com/hentzrafael/siri.git
cd siri
Compile o projeto:
mvn clean install
Inicie a aplicação:
java -jar target/siri-1.0-SNAPSHOT.jar
Acesse a API:
A aplicação será iniciada no endereço http://localhost:4567
.
Verifica o status de um webcrawl com o id especificado.
Resposta:
{
"id": "<id>",
"status": "active",
"urls":[
"http://example.com",
]
}
Inicia um processo de crawling com base na keyword enviada.
Parâmetros:
keyword
(string) - Keyword a ser processada.Exemplo de requisição:
{
"keyword": "example"
}
Resposta:
{
"id": "abcd1234"
}
Execute os testes unitários com o comando:
mvn test
Este projeto é licenciado sob a licença MIT.
Contribuições são bem-vindas! Siga as etapas abaixo:
git checkout -b minha-feature
.git commit -m 'Adiciona minha feature'
.git push origin minha-feature
.Se tiver dúvidas ou sugestões, entre em contato: