L'extension

L'extension proposait initialement trois services: AlchemyAPI, DBpedia Spotlight et Zemanta. Des services très populaires tels que Stanford NER et OpenCalais ne sont pas inclus car Stanford NER ne propose pas de désambiguïsation et OpenCalais ne propose qu'une fraction d'URI dans le nuage LOD, l'écrasante majorité des URI étant propres au service.

AlchemyAPI

AlchemyAPI est un service capable d'identifier des personnes, des entreprises, des organisations, des pays et villes, des continents, des médicaments, etc. Le service utilise des algorithmes statistiques ainsi que du traitement automatique du langage naturel pour extraire de la sémantique d'un texte. Les algorithmes derrière AlchemyAPI proposent une différentiation entre l'extraction d'une entité et son marquage: en effet, le marquage conceptuel est capable d'abstraction, permettant ainsi, par exemple, de regrouper Michelle Obama, Hillary Clinton et Laura Bush sous la catégorie de First Ladies of the United States. La différence entre l'extraction d'entités nommées et le marquage conceptuel étant très subtil, nous avons pris la décision de traiter les concepts et les entités de la même manière. AlchemyAPI a récemment introduit une nouvelle fonctionnalité à son API, proposant un service de détection de la langue. De manière générale, les résultats proposés par AlchemyAPI utilisent des URI de bases de connaissances réputées telles que DBpedia, OpenCyc et Freebase. AlchemyAPI propose différents plans tarifaires dont une version gratuite limitée en utilisation (1000 extractions par jour) mais pas en fonctionnalités. Pour une utilisation de recherche ou pour une ONG, AlchemyAPI augmente cette limite jusqu'à 30 000 extractions par jour, sur demande écrite.

DataTXT

DataTXT propose de la reconnaissance d'entités nommées et de lier chaque entité trouvée avec une entrée Wikipédia. Le premier argument de DataTXT est le fait que leur algorithme semble très bien fonctionner sur des textes très courts, le rendant presque indispensable pour les analyses de réseaux sociaux (notamment, les tweets qui sont limités à 140 caractères). Selon son site web (https://dandelion.eu/products/datatxt/) .DataTXT propose une approche mathématique non basée sur le traitement automatique du langage naturel, ce qui permet au service de fonctionner indépendemment de la langue traitée. Néanmoins, la documentation de l'API (https://dandelion.eu/docs/api/datatxt/nex/v1/) précise que seul le support de l'italien, du français et de l'anglais est pour le moment disponible. Tout comme AlchemyAPI, DataTXT propose un service complet mais limité à 1000 extractions par jour pour usage non commercial ainsi qu'une version payante permettant plus d'extractions. Des licences pour la recherche sont également disponibles sur demande.

Wikimeta

Wikimeta est un service de NER développé au Canada et proposant de traiter des corpus en anglais et en français. Pour annoter sémantiquement les entités extraites, Wikimeta avance des liens vers DBpedia, Wikipédia, Geonames et le CIA World Factbook. Comme les autres services, une version gratuite complète est disponible -- mais limitée à 100 extractions par jour -- et une offre payante existe également. Dans le cas de la version payante, la tarification diffère des autres services: en effet, le calcul ne se fait pas sur le nombre d'extractions, mais sur le volume de données traitées.

Zemanta

Zemanta permet d'interroger leur service afin d'extraire des métadonnées contextuelles par rapport à un texte. Le service classifie les résultats en 4 catégories: articles, mots-clés, photos et liens intra-texte. Zemanta identifie les entités extraites et les lie au nuage LOD (plus particulièrement via DBpedia et Freebase). Une version complète mais limitée en extractions (1000 par jour) est disponible gratuitement. Si l'utilisation se fait dans un but non commercial, la limite peut être levée à 10 000 extractions par jour, sur demande.