Concept Suite
Die TextTech Concept Suite umfasst folgende Packages:
- TextTech Corpora Builder: Software zur Erstellung und Pflege kundenspezifischer Korpora
- TextTech Term Extractor: Software zur automatisierten Extraktion relevanter Schlagwörter (inkl. Nutzung von Korpora)
- TextTech Classifier: Software zur automatisierten Klassifikation von Textdokumenten
- TextTech Recommender: Software zur automatisierten Empfehlung von Objekten (z.B. Texten)
- TextTech Toolbox: Workbench bestehend aus Komposita-Zerlegung, Lemmatisierung, Phrasenextraktion (als Erweiterung zur Termextraktion) und Ähnlichkeitsberechnung
Zunächst geht es bei der Einführung von TextMining im Unternehmen darum, die linguistischen Grundlagen zu legen. Der wichtigste und entscheidende Arbeitsschritt ist der Aufbau kundenspezifischer Korpora, die die Güte der TextMining-Ergebnisse maßgeblich beeinflussen.
Von der Qualität dieser Ergebnisse hängt die Güte der Verschlagwortung entscheidend ab. Daher ist darauf zu achten, dass sowohl die Datenbasis für die Korporaerstellung repräsentativ ist, als auch die Algorithmen der Korporaerstellung optimal konfiguriert sind. Es gilt u. a. die grundlegende Entscheidung zu treffen, inwieweit ein Korpus für den Kunden ausreichend erscheint bzw. themenspezifische Korpora notwendig werden. Die hier erzeugten Korpora können auch in anderen TextMining-Cases eingesetzt werden und sind somit nicht anwendungsfallspezifisch.
Ergebnis dieser Projektphase ist ein kundenspezifischer Korpus, bzw. mehrere Themen- und kundenspezifische Korpora, welche die Basis für die kommenden Schritte bilden. Für den Aufbau der Korpora kommt der TextTech CorporaBuilder zum Einsatz. Diese Software unterstützt sowohl bei der initialen Korporaerstellung als auch bei den Aktualisierungsprozessen der Wortschätze, die in noch zu definierenden Zeitabständen durchgeführt werden müssen.
Der TextTech TermExtractor ermöglicht eine automatisierte Verschlagwortung von Dokumenten unter Nutzung verschiedener Korpora. In der Regel sind auch an dieser Stelle einmalig manuelle Vorarbeiten zu tätigen, die insbesondere in der optimalen Konfiguration des Tools liegen.
Im Zusammenhang mit Klassifikationsaufgaben liefern wir den TextTech Classifier, der innerhalb der TextMining-Analyse und der eigentlichen Echtzeit-Klassifikation zum Einsatz kommt. Die grundlegende Erstellung der TextMining-Modelle wird unter Nutzung aktueller Klassifikationsalgorithmen durchgeführt.
TextTech Recommender dient zur automatisierten Empfehlung von Objekten. Dies ist eine Erweiterung der Klassifikation. Aufgrund einer Echtzeit-Klassifikation kann damit das System kontext- und content-sensitive Empfehlungen liefern (z.B. Textobjekte).
Die TextTech Toolbox besteht aus einer Reihe von Werkzeugen, die zur Anreicherung und Veredelung der TextMining Ergebnisse dienen:
- TextTech Komposita-Zerleger: zerlegt ein Kompositum in seine Bestandteile und reduziert danach die Bestandteile auf ihre Grundformen
- TextTech Lemmatisierungstool: zur Festlegung der Grundform eines Lexems und Zuordnung bzw. Rückführung zu einer Vollform
- TextTech Phrase-Extractor: Phrasenextraktion als Erweiterung zur Termextraktion
- TextTech Similarity Tool: zur Berechnung ähnlicher Worte