Romanistisch Forschende, die überlegen Methoden des Topic Modelling im Rahmen ihrer Forschung anzuwenden, finden in diesem Tutorial der hilfreichen Initiative „The programming historian“ eine gute Einführung. Ulrike Henny-Krahmer hat sich die Mühe gemacht, die bereits existierende Anleitung «Introducción a Topic Modeling y MALLET» von Shawn Graham, Scott Weingart und Ian Milligan gemeinsam mit anderen ins Spanische zu übersetzen und anzupassen: «Introducción a Topic Modeling y MALLET».
Im Topic Modelling geht es darum eine digital vorliegende Datenmenge (z.B. Textkorpora) automatisiert in unterschiedliche Themenbereiche zu unterteilen. Oder wie es im Tutorial beschrieben ist:
¿Qué es Topic Modeling y para quién es útil?
Una herramienta de topic modeling toma un texto individual (o un corpus) y busca patrones en el uso de las palabras; es un intento de encontrar significado semántico en el vocabulario de ese texto (o corpus). Antes de empezar con topic modeling deberías preguntarte si es o no útil para tu proyecto. Para empezar a entender en qué circunstancias una técnica como esta es la más efectiva, te recomendamos Distant Reading de Matthew Kirschenbaum (una charla dada en el simposio de la Fundación Nacional de Ciencias de los Estados Unidos en 2009, sobre la próxima generación de extracción de datos y descubrimiento cibernético para la inovación) y Reading Machines de Stephen Ramsay.
Wer sich über das gut konzipierte und mit zahlreichen Quellen angereicherte Tuturial in das Thema Topic Modelling und den ‚Werkzeugkasten‘ MALLET einlesen, sowie erste praktische Schritte unternehmen möchte, findet dort einen guten Einstieg:
Esta lección explica qué es topic modeling y por qué podrías querer utilizarlo en tus investigaciones. Luego aprenderás cómo instalar y trabajar con MALLET, una caja de herramientas para procesamiento de lenguajes naturales (PLN) con la que topic modeling se puede llevar a la práctica.
Bitte hier entlang: «Introducción a Topic Modeling y MALLET» und für Nicht-Spanisch-Sprechende steht wie gesagt das englischsprachige Original zur Verfügung.
[via @proghist]