sexta-feira, 9 de janeiro de 2015

Shell Script - Script que retorna os últimos posts do GeeksBR

Olá pessoal, nesse post faremos um programa em Shell Script que extrai os títulos dos últimos artigos do GeeksBR. Preparado para diversão? :)

Utilizaremos o lynx (navegador em modo texto) para fazer o download da página. Caso você não tenha instalado o lynx, basta fazer:

sudo apt-get install lynx-cur

Dê o seguinte comando para baixar a página:

lynx -dump -nolist http://www.geeksbr.com > geeksbr.txt

Com a opção "-dump" renderiza a página HTML e manda para STDOUT. Com "-nolist" omite a listagem dos links. O conteúdo da página será redirecionado para o arquivo "geeksbr.txt".

Agora abra o arquivo "geeksbr.txt" para analisá-lo, irei abrir com o nano:

nano geeksbr.txt

Perceba que os títulos das postagens são colocados bem no início das linhas.

Vamos procurar primeiramente por linhas que iniciem com maiúsculas, veja:

grep '^[A-Z]' geeksbr.txt

Ok, estamos quase chegando lá, mas se você é um leitor assíduo do blog, já deve ter percebido que às vezes os posts começam com um "[" como por exemplo o post abaixo:

Então basta colocar o "[" também na lista utilizando o escape, veja:

grep '^[\[A-Z]' geeksbr.txt

Opa, agora sim retornou todos os títulos dos últimos posts que são 10 (total de posts exibidos na página principal).

Que tal colocarmos em um script para você executar quando quiser para saber os últimos posts? Veja só o código:





Nenhum comentário: