« Hyphe » : différence entre les versions
aucun résumé des modifications
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 10 : | Ligne 10 : | ||
|Tutelle=Sciences Po | |Tutelle=Sciences Po | ||
|PhaseCycleVie=Collecte, Documentation | |PhaseCycleVie=Collecte, Documentation | ||
|International=Non | |||
}} | }} | ||
{{Coordonnées GPS | {{Coordonnées GPS | ||
| Ligne 16 : | Ligne 17 : | ||
{{Service | {{Service | ||
|Description='''Hyphe''' est un logiciel libre de collecte de données sur le web permettant aux chercheurs de '''créer des corpus constitués de pages web et de liens entre elles sur un sujet spécifique'''. C’est un crawler, soit un outil de collecte automatique qui permet d’'''extraire des données numériques sur le web'''. | |Description='''Hyphe''' est un logiciel libre de collecte de données sur le web permettant aux chercheurs de '''créer des corpus constitués de pages web et de liens entre elles sur un sujet spécifique'''. C’est un crawler, soit un outil de collecte automatique qui permet d’'''extraire des données numériques sur le web'''. | ||
Les pages web sont sélectionnées par les chercheurs et peuvent être regroupées en « webentités ». En les crawlant, Hyphe permet de construire itérativement et de visualiser un réseau des relations entre ces acteurs à travers les hyperliens reliant ces webentités. De nouvelles webentités sont automatiquement suggérées en explorant les hyperliens de chaque entité présente dans le corpus. Les chercheurs peuvent ensuite les examiner dans un processus itératif et qualitatif. | |||
Il permet de fouiller systématiquement tous les contenus textuels et les hyperliens liés à l’adresse URL renseignée au départ. Il '''simule l’ensemble des interactions entre un poste client et le serveur, et produit un corpus de pages web''', sur un sujet donné, en se nourrissant de la première liste que les utilisateurs lui ont fourni. | Il permet de fouiller systématiquement tous les contenus textuels et les hyperliens liés à l’adresse URL renseignée au départ. Il '''simule l’ensemble des interactions entre un poste client et le serveur, et produit un corpus de pages web''', sur un sujet donné, en se nourrissant de la première liste que les utilisateurs lui ont fourni. | ||