Logo HU Berlin
Logo FU Berlin Logo Xinnovations

Impulse

zur Übersicht

Dr. Thomas Hoppe

Ontology-based Classification – Application of Machine Learning Concepts without Learning

Vortrag zum Statusmeeting vom 7. Oktober 2014

Um Lernverfahren zur Klassifikation von Texten zu verwenden, muss in der Regel eine vorklassifizierte Menge von Beispieltexten vorliegen. Wenn die Vorklassifikation von Trainingsbeispielen aus Aufwandsgründen nicht geleistet werden kann, muss eine andere Herangehensweise gefunden werden, um an die Beispiele zu gelangen. In diesem Vortrag wird anhand eines konkreten Kundenproblems gezeigt, wie klassifizierte Begriffe genutzt werden können, um aus einer Ontologie "virtuelle Trainingsbeispiele" abzuleiten und wie diese genutzt werden können, um neue Texte zu klassifizieren.

Präsentation ansehen (PDF)

---

Semantic Web Technologien – Infrastruktur für Semantic Storytelling

Vortrag zur Fachtagung am 26. September 2013

In einer ersten Näherung kann Semantic Storytelling als die Weitergabe von explizitem (oder implizitem) Wissen in Form von Geschichten aufgefasst werden, die durch Computeranwendungen „erzählt“ werden.  Geschichten liegt eine Handlung (oder in abgeschwächter Form) ein „roter Faden“ zugrunde und je nach Zuhörern werden unterschiedliche Schwerpunkte gesetzt. 

Will man Computeranwendungen „Geschichten erzählen lassen“  so wird neben einer Benutzeroberfläche, die die Geschichten transportiert, eine Infrastruktur benötigt mit der die Zusammenhänge der Geschichte erfasst und repräsentiert werden können. Hierbei sollte es sich um eine Infrastruktur handeln, die einerseits flexibel veränder- und erweiterbar ist, und auf der anderen Seite, für umfangreiche Datenbestände eine „Fließbandproduktion“ erlaubt. Der Vortrag skizziert wie eine solche Infrastruktur durch semantische Technologien realisiert werden könnte.

Präsentation ansehen (PDF)

 

Monstren, Mythen, Metadaten ... wenn uns die Sprache fehlt...

Vortrag zur Fachtagung am 27. September 2013

„Worüber man nicht reden kann, darüber muss man Schweigen“. Dieses Zitat entstammt dem „Tractatus logico-philosophicus“  von Ludwig Wittgenstein und ist wahrscheinlich vielen geläufig. Das Werk analysiert die philosophischen Grundlagen von Aussagen über die Welt und die Grenzen des Aussagbaren.

Um Informationen intelligent verarbeiten zu können, müssen die in ihnen enthaltenen Informationen entweder extrahiert oder durch Metadaten annotiert werden. Sowohl der Extraktions- als auch der Annotationsprozess benötigen zur Erkennung relevanter Information Strukturen oder Vokabularien. In einigen Anwendungsbereichen stehen umfangreiche Vokabularien zur Verfügung. In vielen anderen Bereichen jedoch – insbesondere wenn Informationsgeber und -nehmer in unterschiedlichen Sprachräumen leben – existieren diese Vokabularien noch nicht und müssen erst noch geschaffen werden, denn in Anlehnung an Wittgenstein: „Was man nicht erkennen kann, darüber kann man nur schweigen.“  

Präsentation ansehen (PDF)

 

NewsMap – Lokalisierung von Nachrichten durch Hintergrundwissen

Präsentation zur Auftaktveranstaltung, 23. Oktober 2012

83% der Zeitungsleser lesen die lokalen Nachrichten in der Regel immer. 82% der Tabletnutzer wünschen sich ein kombiniertes Angebot aus Print und App mit einem klaren Fokus auf lokale resp. regionale Nachrichten und einer einfachen Navigation. 63% der Online-Leser fänden eine umfassendere Regionalberichterstattung interessant.

Auf genau diesen Bedürfnissen setzt NewsMap auf. NewsMap liefert Ihnen die aktuellsten, lokalen Nachrichten der Berliner Tageszeitungen aus Ihrer nächsten Umgebung. NewsMap kombiniert die Zeitungs-übergreifende Berichterstattung mit der Bedienerfreundlichkeit einer Augmented Reality Anwendung und erzeugt so eine neue Sicht auf die Nachrichtenwelt um Sie herum. Steigen Sie ein und lesen was um Sie herum passiert. Aber Vorsicht: NewsMap macht abhängig!

Präsentation ansehen (PDF)
 

Impuls: Das Feuerholz kennt die Asche nicht

Die Musikindustrie machte in den letzten Jahrzehnten eine gravierende Wandlung durch. Durch Internettauschbörsen, MP3 und in der Folge iTunes wurde das gepresste Container-
format „Album“  aufgelöst  und in einzelne Musikstücke zerlegt, die, von ihrer physischen Repräsentation befreit, plötzlich elektronisch tausch- und handelbar wurden. Haupttreiber
war hierbei die von der Computerindustrie vorangetriebene technische Entwicklung und nicht die Suche nach neuen Geschäftsmodellen durch die Musikindustrie selber. Musikliebhaber möchten sicherlich nicht alle Alben so in ihre einzelnen Stücke auflösen, wer würde schon eine Symphonie Beethovens oder „Darkside of the Moon“ von Pink Floyd, die in sich Gesamtwerke darstellen, einzeln hören wollen? Für den Großteil der U-Musik jedoch, deren Alben sich durch eine geringe Zahl von bekannten Stücken und viel „Füllmaterial“ auszeichnen, erzeugte diese Entwicklung einen Mehrwert seitens der Konsumenten: sie brauchen nur noch das zu kaufen, was sie wirklich haben wollten. Durch diesen USP wurde das Modell erfolgreich.

Verlage, insbesondere Fachbuchverlage und Zeitungsverlage, stehen vor einer ähnlichen Veränderung bzw. befinden sich bereits darin. Wissenschaftliche Artikel werden von den Autoren zunehmend selber über das Internet veröffentlicht, Zeitungen veröffentlichen ihre Artikel gratis im Internet, SmartPhones, e-Book-Reader und Tablets erlauben es, sich vom gedruckten Werk zu lösen und die aktuellsten Werke zu jeder Zeit an jedem Ort zu lesen. Der Gang in eine Bibliothek oder in einen Buchladen ist durch den Online-Handel nahezu überflüssig geworden. Im Gegensatz zur Musikindustrie jedoch erahnen die Verlage, dass eine Umwälzung bevorsteht und suchen nach neuen Geschäftsmodellen für Ihre Containerformate „Buch“, „Zeitschrift“ und „Zeitung“.

Während meines Studiums musste ich noch teure Fachbücher mit für mich vielen „Füllartikeln“ erstehen, nur um einen oder zwei relevante Publikationen für meine Arbeit dauerhaft zur Verfügung zu haben. Nur wenige Artikel eines Zeitschriftenabonnements sind für den einzel-
nen Leser wirklich interessant, den Rest liest er meist zum Zeitvertreib. Will ich mich über ein einzelnes Ereignis informieren, kaufe ich keine ganze Zeitung, sondern ich lese online. Ich kaufe ja auch kein ganzes Schwein, nur weil ich mal Appetit auf Schnitzel habe.

 Diese „Auflösung“ der Container  „Buch“, „Zeitschrift“ und „Zeitung“ ist in vollem Gang, aber immer noch ist unklar, welches Geschäftsmodell damit etabliert werden kann.

Lassen Sie mich diesen Gedanken der „Auflösung“ weiterspinnen. Was wäre, wenn wir einzelne Informationen aus einem Fachartikel extrahieren könnten, wie z. B. die Ableitung/den Beweis einer Formel, eine Grafik, die Daten einer Tabelle etc. und diese elektronisch weiter verarbeitbar zur Verfügung hätten? Oder wenn wir einzelne Artikel einer Zeitung nicht nur lesbar, sondern gegen eine geringe Gebühr „analysierbar“ zur Verfügung hätten? Bestimmte Marktsegmente wären garantiert gewillt für solche „Weiternutzungen“ zu bezahlen.

Neben seiner ursprünglichen Verwendung zum Lesen stünden die Informationen plötzlich für neue – uns bisher unbekannte – Einsatzmöglichkeiten zur Verfügung, mit denen sich neue Geschäftsmodelle entwickeln lassen. Beispielsweise könnten Datenjournalisten mit geeigneten Werkzeugen „ereignisspezifische Presseclippings“ erzeugen, diese separat vermarkten oder Wissenschaftler könnten unterschiedliche Untersuchungsergebnisse vergleichen und analysieren oder Startups könnten neue kreative Zugänge zu den Informationen schaffen (ein Beispiel ist NewsMap).

Dies setzt jedoch voraus, dass wir diese Einzelinformationen überhaupt finden und automatisch verarbeiten können. Durch die „Ver-
kleinerung“ der Publikationen entstehen interessante Seiteneffekte: die Einzelinformationen werden präziser beschreibbar und besser automatisch analysierbar. Während man heut noch ein Buch maximal einem Themengebiet zuordnen kann oder einen Zeitungsartikel einer generellen Kategorie, können die Einzelinformationen weitaus präziser beschrieben werden, z. B. „Außenhandelsstatistik Venezuelas 2007“, „Beweis der Fermat’schen Vermutung“ etc. Wenn diese Informationen sogar noch um automatisch verarbeitbare Metainformationen erweitert wurden, wird ein Mehrwert geschaffen, der sein Geld wert sein dürfte.

Unser Universum ist in permanentem Wandel begriffen, nichts hat Bestand. Sterne erbrüten die Materie. Sie müssen explodieren, damit sich aus den Atomen des Sternenstaubs neue Sterne und Planeten bilden können. Welches neue Leben sich auf diesem Planeten bildet, zeigt erst die Zukunft. Vor dem nächsten Evolutionsschritt jedoch steht die Auflösung.

Kurzbiografie

Dr. Thomas Hoppe ist Inhaber des Datenlabor Berlin, das Unternehmen – insbesondere KMUs –  Dienstleistungen im Bereich der Data Science bietet. Angefangen von der Datenaufbereitung, über die Analyse von Daten und (sozialen) Netzwerken, das Text und Data Mining, Knowledge Engineering  und die Wissensmodellierung, bis hin zur Beratung, zum Algorithmenentwurf und Umsetzungbegleitung. Das Datenlabor Berlin liefert Data Science – Made in Berlin.