Text Mining en Web Scraping

Tijdens deze tweedaagse cursus leer hoe je data en teksten eenvoudig van het internet kan halen en analyseren. Voor de analyse zullen we diverse Natural Language Processing (NLP) tools gebruiken om de teksten te analyseren. Zo leer je bijvoorbeeld de prijzen van huizen scrapen en visualiseren. Daarnaast leren we het sentiment van een tekst te bepalen. Dit is alleen mogelijk met onze unieke leermethode, de persoonlijke aandacht en onze extra ondersteuning na je cursusdagen. De cursus wordt afgesloten met een Text Mining en Web Scraping certificaat.

Tekst komt je overal tegen. Denk aan websites, nieuws artikelen, recensies, mail berichten en wetenschappelijke publicaties. In veel gevallen is de hoeveelheid tekst te groot om handmatig te analyseren of moeten de analyses dagelijks worden uitgevoerd. In deze situaties is het handig om teksten automatisch te verwerken.

Gelukkig zijn er web scraping tools, waarmee deze taken uitgevoerd kunnen worden. Daarnaast zijn er Natural Language Processing (NLP) tools om kwantitatieve analyses uit te voeren op tekst data. Het vakgebied van NLP is enorm aan het groeien de afgelopen jaren en de meest krachtige technieken zijn publiekelijk beschikbaar!

Een groot deel van deze cursus wordt besteed aan het verkrijgen van onze data. Wij zullen meerdere websites – waaronder www.funda.nl, www.autoscout24.nl en www.allrecipies.com – gaan gebruiken als bron. Deze websites zullen we met een simpele Google Chrome extensie gaan scrapen. Hierdoor kunnen we onder andere reviews, getallen en categorieën uitlezen en visualiseren.

We maken gebruik van de programmeertaal Python voor het analyseren van onze data. Deze programmeertaal is relatief eenvoudig om mee te werken en bevat de beste data analyse en Natural Language Processing (NLP) tools.

Heb je geen ervaring met programmeren en/of met Python? Geen probleem! We bieden deze cursus ook aan voor mensen die geen ervaring hebben met programmeren. Ter voorbereiding sturen wij je materiaal toe. Hierdoor kun je met alle benodigde kennis met de cursus van start! Mocht je niet zeker zijn of je voldoende voorkennis hebt? Laat het ons dan weten via het contact formulier.

Leerdoelen cursus Text Mining en Web Scraping

  • kun je websites scrapen,
  • kun je tekst data opschonen met RegEx,
  • kun je data analyseren die je vanuit online bronnen hebt verkregen,
  • kun je sentiment analyses uitvoeren op teksten,
  • en kun je werken met de krachtige NLP tools SpaCy en HuggingFace.

Voor wie is de cursus Text Mining en Web Scraping?

Deze cursus is iets voor jou als je:

  • kwantitatieve en kwalitatieve analyses wilt uitvoeren op teksten,
  • teksten of data wilt scrapen van het web,
  • bereid bent om te leren programmeren.
Python Essentials Code voorbeeld
Python Essentials Cursisten School of Data Science

Afbeelding 1 en 2. Programmeer voorbeeld uit de cursus en ons klaslokaal op locatie Rotterdam.

Cursusinhoud Text Mining en Web Scraping

Tijdens deze cursus werken we met gratis tools, zodat je na deze cursus verder kan gaan met wat je geleerd hebt.

Teksten binnenhalen

  • Web Scraping. We gaan werken met de Google Chrome Extension www.webscraper.io. Deze tool maakt het mogelijk om snel en eenvoudig informatie van website pagina’s te halen.
  • Basiskennis Python. Om iedereen mee te laten komen met de cursus is het belangrijk dat je begrijpt wat code doet. Daarom is er lesstof die je voor de cursus kan doornemen als je geen Python ervaring hebt.
  • Google Colab. We gaan teksten analyseren binnen Google Colab. Dit is een gratis Python omgeving van Google zodat je geen Python hoeft te installeren op je computer.

Tekst verwerking

    • Teksten opschonen met RegEx. Data moet vrijwel altijd opgeschoond worden voordat we er mee kunnen werken. RegEx is een taaltje op zichzelf dat vaak wordt gebruikt om teksten op te schonen.
    • Data verwerken met Pandas. Python heeft een library genaamd Pandas wat wordt gebruikt om makkelijk met data te kunnen werken.

Natural Language Processing

  • Taal analysis met SpaCy. Er zitten vele structuren in teksten die bruikbaar zijn om de juist informatie te vinden. SpaCy in een NLP tool die veel kennis heeft van taal structuren zodat we makkelijker informatie kunnen vinden.
  • Doorzoeken van teksten met SpaCy. Door het taalbegrip van SpaCy is het een krachtige tool voor het vinden van informatie in teksten.
  • Sentiment Analysis met HuggingFace. Een veel voorkomende toepassing van NLP is het voorspellen van de positiviteit of negativiteit van een tekst. HuggingFace heeft de nieuwste modellen voor vele NLP toepassingen waaronder Sentiment Analyse.
  • Andere classificaties met HuggingFace. Naast sentiment kan je teksten ook met andere tags labelen. Bijvoorbeeld of de tekst ongepast is of wat het onderwerp is.
  • Samenvatten, vertalen en creëren van teksten. Huidige taal modellen zijn tegenwoordig zo goed dat ze zelfs teksten kunnen schrijven en vertalen. Dit staat nog in de kinderschoenen maar het is al verwerkt in meerdere commerciële producten.

Extra informatie over de Text Mining en Web Scraping cursus

  • Na je inschrijving nemen we contact met je op voor een intake. Dit doen we om je ervaring en leerbehoeften goed in kaart te brengen.
  • De cursussen worden gegeven in groepen van maximaal 12 personen .
  • Je hebt voor deze cursus een eigen laptop nodig om mee te doen, met daarop Google Chrome geinstalleerd. Je hoeft van te voren geen software te installeren.
  • We gebruiken de servers van Google voor de opdrachten. Hiervoor heb je een Google account nodig. Dit is eenzelfde account dat je voor Gmail en YouTube gebruikt
in samenwerking met

PRAKTISCHE INFORMATIE

MAESTRO PRIJS

€ 825-

PARTNER PRIJS

€ 795,-

CURSUS

Klasikaal

AANTAL DAGEN

2

Datum optie 1 30 December 2026 Locatie: Den Haag - op verzoek georganiseerd en data in overleg - eenmaal afgesproken dan startgarantie

DIRECT AANMELDEN

Aanmelden voor Text Mining en Web Scraping

VOORWAARDEN

  • Partners van de Maestro Academy: Specialisten aangesloten bij Het Finance Gilde, Change Management Community Nederland, Data2Succes, Maestro Business Campus of HeadFirst(Premium overeenkomst);
  • De genoemde prijzen zijn exclusief BTW;
  • De betaling dient vóór aanvang van de eerste trainingsdag volledig te zijn voldaan;