Text- & datamining
Binnen onderzoek wordt in toenemende mate Text- & Datamining (TDM) toegepast om uit ongestructureerde data (tekst) en gestructureerde data (data in databases) informatie en kennis te extraheren.
Het CDS biedt ondersteuning aan onderzoekers die gebruik willen maken van TDM.
Tot de verschillende diensten behoren:
- Het toegankelijk en bruikbaar maken van digitale collecties van de UBL voor onderzoek met TDM
- Ondersteuning bij data cleaning en dataverrijking
- Ondersteuning bij data-analyse en datavisualisatie
- Ondersteuning bij data curation en data preservation
Op deze pagina vindt u meer informatie over TDM en enkele startpunten voor nieuw onderzoek. Omdat het onmogelijk is om een actueel en volledig overzicht te geven van beschikbare bronnen en software, verzoeken we u contact met ons op te nemen als vragen heeft over dit onderwerp. We denken graag met u mee.
Wat is text- & datamining?
Datamining is een proces waarin computers kennis ontlenen aan gestructureerde data. Textmining is een proces waarin kennis wordt ontleend aan ongestructureerde data.
Datamining maakt deel uit van het textmining proces, en om deze reden wordt vaak de afkorting text- & datamining (TDM) gebruikt. De technieken uit TDM wordt in toenemende mate toegepast op wetenschappelijke literatuur, zoals tijdschriftartikelen, monografiën en conference papers.
TDM kan verschillende activiteiten inhouden, zoals:
- information retrieval: het vinden van relevante teksten
- information extraction: het identificeren van zaken als persoonsnamen, organisaties of onderwerpen binnen teksten, en het vaststellen van relaties tussen deze entiteiten
- datamining: het vaststellen van correlaties, regelmatigheden of andere patronen binnen teksten
TDM kan worden toegepast binnen alle stadia van het onderzoeksproces. De mogelijkheden hangen echter sterk samen met het formaat van de teksten die doorzocht moeten worden.
Doordat de hoeveelheid aan digitale data vrijwel voortdurend toeneemt, hebben onderzoeksgebieden als Data Science en de Digital Humanities een enorme vlucht genomen. In September 2014 ging binnen de Universiteit Leiden het Leiden Centre of Data Science van start. Dit centrum richt zich op de ontwikkeling van statische en computationele methoden voor het doorzoeken van wetenschappelijke data.
De Universitaire Bibliotheken Leiden hebben een belangrijke collectie met publicaties over TDM (opvraagbaar via onze Catalogus).
Text- & datamining technieken kunnen niet alleen worden toegepast op teksten die zich in het open domein bevinden, maar ook op auteursrechtelijk beschermd materiaal. Binnen projecten die gebruik maken van TDM worden er over het algemeen lokale kopieën van teksten gemaakt, en het maken van kopieën is normaal gesproken voorbehouden aan de auteursrechthebbende. Voor universiteiten (en andere niet-commerciële onderzoeksinstellingen) is het maken van kopieën ten behoeve van TDM echter toch toegestaan. Dit is te vinden in de artikelen 15n en 15o van de Auteurswet. Deze artikelen gelden sinds 7 juni 2021.
TDM is voor onderzoekers mogelijk bij alle werken waar zij rechtmatige toegang tot hebben. Rechtmatige toegang houdt in dat de werken die vrij toegankelijk zijn op internet of dat onderzoekers toegang hebben tot deze werken via de Catalogus van hun instelling. Uitgevers mogen TDM niet contractueel uitsluiten. Zij mogen niet in de licentie met de universiteit opnemen dat TDM niet toegestaan is. Ook mogen uitgevers geen technische barrières aanbrengen die TDM onmogelijk maken.
Ondervindt u als onderzoeker toch problemen bij TDM of het maken van kopieën ten behoeve van TDM, stuurt u dan een e-mail aan cds@library.leidenuniv.nl
Meer informatie over auteursrecht is te vinden op de site van ons Auteursrechteninformatiepunt.
Zoals hierboven ook is aangegeven kunt u in principe elke toegankelijke bron gebruiken voor onderzoek met TDM. Het kan uiteraard wel handig zijn om te beginnen met bestaande collecties van bronnen die al geschikt zijn gemaakt voor TDM. De UBL bieden een overzicht van databases via Find Databases. Hierin bevinden zich ook tekstcorpora en bibliografieën. Neem contact met ons op als u ondersteuning nodig hebt bij het gebruiken van deze of andere collecties.
Elders bestaan andere overzichten van mogelijke bronnen. MIT Libraries, bijvoorbeeld, biedt een overzicht van API's, acroniem voor application programming interfaces, die toegang bieden tot digitale bronnen.