Text- und Data-Mining
Text- und Data-Mining (TDM) durchsucht grosse Mengen von Texten und Daten mit computergestützten Verfahren. Unstrukturierte Daten werden aufbereitet und automatisiert auf Muster, Trends und Zusammenhänge untersucht.
TDM bezeichnet verschiedene Verfahren, um grosse Mengen von Texten oder Daten zu durchsuchen und auszuwerten. Mithilfe computergestützter Analyseverfahren werden meist unstrukturierte Daten zunächst systematisch und maschinenlesbar aufbereitet und schliesslich automatisiert auf Muster, Trends und andere forschungsrelevante Zusammenhänge hin untersucht.
Bei der Nutzung von urheberrechtlich geschützten Materialien wie z.B. Texte, Bilder oder audiovisuelle Medien als Datenquelle für TDM müssen rechtliche als auch technischen Nutzungsbedingungen beachtet werden. Weboberflächen der jeweiligen Anbieter sind in der Regel nicht geeignet, grosse Datenmengen direkt herunterzuladen. Wenn Sie für Ihre Forschung beispielsweise grosse Mengen an Inhalten aus lizenzierten E-Ressourcen der Hochschulbibliothek analysieren möchten, beachten Sie bitte unsere Hinweise im Selfserviceportal (KI 3355) (mit ZHAW-Login).
Viele Verlage verfügen über allgemeine Regelungen zum Einsatz von Text- und Datamining bei ihren Publikationen. Dort finden sich häufig auch Informationen zu Schnittstellen und deren Nutzung (Registrierung, Vorgabe für Lade- und Download-Raten etc.). (Liste nicht abschliessend).
- Cambridge University Press
- CrossRef
- Elsevier
- Oxford University Press
- Royal Society of Chemistry
- SAGE
- Springer Nature
- Wiley
Neben lizenzierten Inhalten gibt es auch frei zugängliche Datenbanken, welche den Einsatz von TDM erlauben (Liste nicht abschliessend):
- Arxiv
Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie - BioMed Central
Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin - Europeana
Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen - HathiTrust Digital Library
Digitalisate von über hundert akademischen Institutionen weltweit - Public Library of Science (PLOS)
Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag - PubMed Central: Databases and Text Mining Tools
Diverse frei zugängliche Mining Tools, mit denen PubMed Central, ein Archiv mit frei zugänglichen Inhalten aus den Fachbereichen Biologie und Biomedizin, durchsucht werden kann
Der offene Zugang zu selbst geschaffenen Inhalten im Sinne von Open Science erleichtert TDM-Verfahren. Das eindeutige Rechte-Management mit standardisierten, maschinenlesbaren und open-content-gerechten Creative-Commons-Lizenzen trägt zur rechtssicheren Anwendung von TDM-Methoden auf Daten- und Textkorpora bei.
Weitere Informationen:
- Informationen zu TDM und Schweizer Urheberrecht von CCdigitallaw.ch
- Informationen über rechtliche Aspekte bei der Veröffentlichung von Daten finden Sie im DMLawTool.
- Mehr zum Forschungsdatenmanagement an der ZHAW (mit ZHAW-Login)