Crawler le web

Navicrawler (extension firefox)

Extension firefox créé par Mathieu Jacomy permettant de faire du crawling manuel de pages web. Doté de multiples fonctionnalités destiné à faciliter l'exploration et l'organisation des données du crawl, il est le chainon manquant entre le navigateur web et le crawler. De plus, son export gdf permet de le coupler avec des logiciels d'exploration de graphe comme gephi (voir ci-dessous).
Navicrawler est développé au sein de webatlas et est disponible en libre téléchargement sur le site de l'association accompagné d'une riche documentation.

Digital Methods Tools (site web d'outils)

Digital Methods est une initiative destinée à proposer des outils pour fouiller les données internet au travers d'outils. On y trouve de nombreux scrapers de google à même d'apporter nombre d'informations utiles comme le pagerank ou des classement de mots-clés ;on trouve également de outils destinés à la géolocalisation, ou des outils de visualisation.

TimmyMiner (extension firefox)

Extension firefox créé par le prolifique Mathieu Bastian (Gephi) qui analyse le contenu textuel des pages web dans le but de créer le corpus de mots-clés les plus représentatifs. TimmyMiner est un complément très utile du navicrawler

Micrawler (script perl)

Mini crawler en perl développé pour le cours d'IC05 par Camille Maussang

Visualiser ses données

Gephi (logiciel)

Logiciel open source pour analyse de graphe et de réseaux. Il utilise un moteur de rendu 3D pour afficher de grands graphes en temps réel. Il permet d'explorer visuellement, au travers de tâches définies (filtrage, manipulation, export, etc. ) propulsées par des algorithmes puissants, de vastes ensembles de données. Concue au sein de webatlas par Mathieu Bastian (chef de projet) et Sebastien Heyman (manager de la communauté gephi), gephi tourne sur tous les OS pourvus de Java et est en libre téléchargement.

Processing (logiciel)

Processing est un langage et un environement de développement développé par Ben Fry (dont la thèse est un must-read) et Casey Reas ayant pour but de créer rapidement des visualisations interactives et des animations. De nombreuses librairies sont disponibles et le logiciel est gratuit et basé sur java.

Many Eyes (Site web)

Many eyes permet créer ses propres visualisations pour ses datasets avec un jeu de visualisations existantes ; Projet gratuit hébergé par IBM.

Scripts utiles

Étudiants, envoyez vos scripts !

Open Data

Des APIs très utiles

Côté programmation

GEXF

JSoup HTML Parser (librairie java)

Jsoup permet de monter un arbre DOM en corrigeant les erreurs HTML qui empêcherait de se monter correctement. Elle propose également de nombreux moyens de requête.