Olá pessoal, nesse post faremos um programa em Shell Script que extrai os títulos dos últimos artigos do GeeksBR. Preparado para diversão? :)
Utilizaremos o lynx (navegador em modo texto) para fazer o download da página. Caso você não tenha instalado o lynx, basta fazer:
sudo apt-get install lynx-cur
Dê o seguinte comando para baixar a página:
lynx -dump -nolist http://www.geeksbr.com > geeksbr.txt
Com a opção "-dump" renderiza a página HTML e manda para STDOUT. Com "-nolist" omite a listagem dos links. O conteúdo da página será redirecionado para o arquivo "geeksbr.txt".
Agora abra o arquivo "geeksbr.txt" para analisá-lo, irei abrir com o nano:
nano geeksbr.txt
Perceba que os títulos das postagens são colocados bem no início das linhas.
Vamos procurar primeiramente por linhas que iniciem com maiúsculas, veja:
grep '^[A-Z]' geeksbr.txt
Ok, estamos quase chegando lá, mas se você é um leitor assíduo do blog, já deve ter percebido que às vezes os posts começam com um "[" como por exemplo o post abaixo:
Então basta colocar o "[" também na lista utilizando o escape, veja:
grep '^[\[A-Z]' geeksbr.txt
Opa, agora sim retornou todos os títulos dos últimos posts que são 10 (total de posts exibidos na página principal).
Que tal colocarmos em um script para você executar quando quiser para saber os últimos posts? Veja só o código:
Nenhum comentário:
Postar um comentário