Ergebnisse verarbeiten
Vorverarbeitung
Da die Informationen in Texten, anders als z. B. in Datenbanken im Wesentlichen unstrukturiert vorliegen, ist eine mitunter umfangreiche Vorverarbeitung nötig, bevor Mining-Algorithmen Anwendung finden können. Zu diesen Aufgaben gehören u. a. die Erkennung von Datenformat und Zeichenkodierung, der Textsprache und ggf. Subsprache (z. B. Deutsch (Ch)) sowie struktureller Gliederungen (Titel, Überschriften usw.). Statistische Verfahren der Textanalyse operieren üblicherweise auf den einzelnen Bestandteilen eines Textes, also etwa seinen Wörter oder Phrasen. Diese werden als »Features« bezeichnet und spannen für jeden Text einen »Feature-Raum«. Wesentliche Featureklassen, die im Text Mining Anwendung finden, sind Buchstaben, Wörter, Terme und Konzepte (vgl. Feldman and Sangler, 2007). Dabei verfügen Terme und Konzepte über das höchste semantische Erschließungspotenzial und sind somit für »höherwertige« Analysen am besten geeignet. Um auf Termen und insbesondere Konzepten operieren zu können, bedarf es allerdings einer entsprechend sorgfältigen Vorverarbeitung der Texte. Diese umfasst zumeist die Interpretation der Texte auf unterschiedlichen linguistischen Abstraktionsebenen (morphologisch, syntaktisch, semantisch). Die folgende Tabelle fasst die wichtigsten linguistischen Verarbeitungsschritte zusammen.
Linguistische Verarbeitung
Die im Internet dominierende Sprache ist Englisch – wobei die Menge der in anderen Sprachen (insbesondere Chinesisch und Arabisch) veröffentlichten Informationen weitaus schneller ansteigt (siehe Abschnitt zu Informationsquellen). Bei der Auswahl eines Web Intelligence-Werkzeuges ist die Unterstützung der für das Unternehmen relevanten Sprachen zu beachten – die am Markt verfügbaren Werkzeuge unterscheiden sich in diesem Punkt erheblich. Zwar geben einige Anbieter an, auf rein statistische und somit sprachunabhängige Verfahren zurückzugreifen - ob diese Verfahren jedoch eine vergleichbare Qualität zu einer dedizierten Sprachunterstützung mittels linguistischer Regeln bieten, darf bezweifelt werden.
Metadaten und semantische Annotation
Je nach Dokumenttyp und Informationsquelle kann ein Text bereits mit Metadaten bzw. semantischen Informationen versehen sein. Dies ermöglicht neben benutzerfreundlichen Navigationskonzepten (z. B. "Facetted Search") fortgeschrittene Analysen und Visualisierungen. Leider ist die Anzahl semantisch annotierter Web-Inhalte heute noch sehr gering. In jüngster Zeit sind darum eine Reihe von Initiativen gestartet worden, die mittels automatischer Verfahren versuchen, Metadaten aus Texten zu extrahieren und Dokumente nachträglich mit entsprechenden semantischen Annotationen zu versehen. Eine der bekanntesten Initiativen ist der OpenCalais-Webservice von Thomson-Reuters. Dieser nimmt einen Text als Eingabe entgegen und liefert ein RDF-Dokument als Ergebnis zurück. Dieses Dokument enthält Annotationen wie Ortsangaben und Personen- und Firmennamen und kann sogar bestimmte Arten von Ereignissen oder Beziehungen zwischen Entitäten ermitteln, etwa in der Form "Firma X plant eine Akquisition der Firma Y". Neben OpenCalais gibt es weitere Projekte, die sich mit der aut
