Ontdek alle mogelijkheden met ApplePY. Bekijk alle features

Wat is de Information Gain Score?

Wat is de Information Gain Score?
Hoe wordt deze score berekend?
Hoe werkt deze score?

Wat is de Information Gain Score?

Wat is de Information Gain Score?

Google rangschikt de zoekresultaten op een manier, wat ze ook wel noemen: de Information Gain Score. Het gaat om hoe een bezoeker de eerste artikel leest, daarna opnieuw gaat zoeken naar een relevante zoekopdracht en dan weer heel andere resultaten te zien krijgt.

Deze score geeft aan hoeveel meer informatie een bron kan opleveren voor een bezoeker die andere bronnen over hetzelfde onderwerp heeft gelezen. Pagina's met hogere scores kunnen hoger gerangschikt zijn dan pagina's met lagere scores.

Een bezoeker kan documenten over een onderwerp vinden na het zoeken naar pagina's of links naar pagina's die reageren op een zoekopdracht.

information gain score

Een bezoeker kan ook een pagina ontvangen op basis van:

Belangen van de bezoeker
Eerder bekeken pagina's van de bezoeker
Andere criteria die een interessante pagina kunnen identificeren en bieden.
Informatie van de pagina's kan via een geautomatiseerde assistent komen of resultaten van een zoekmachine.

Informatie van die pagina's kan voor een bezoeker worden getoond als reactie op een zoekopdracht en kan naar de bezoeker gaan op basis van verder zoeken nadat de bezoeker een zoeksessie heeft beëindigd.

In sommige gevallen een subset van informatie uit het document voor presentatie aan de gebruiker. Bijvoorbeeld wanneer een bezoeker een gesproken dialoog tussen mens en computer aangaat met een AI, zoals ChatGPT.

Sommige zoekmachines bieden een aanbevolen fragment met beknopte informatie van een of meer responsieve en/of relevante documenten, naast of in plaats van links naar relevante documenten, als reactie op de zoekopdracht van een bezoeker.

Maar Google heeft een patent aangevraagd om een probleem op te lossen dat het in dit geval heeft geïdentificeerd. Ze vertellen ons dat:

…wanneer een reeks documenten wordt geïdentificeerd die een onderwerp delen, kunnen veel van de documenten vergelijkbare informatie bevatten.

Een bezoeker kan bijvoorbeeld een vraag stellen over een softwareprobleem en kan meerdere documenten analyseren met een vergelijkbare lijst aan oplossingen, herstelstappen, bronnen, enzovoort.

Hoewel elk van deze documenten over hetzelfde onderwerp gaat en relevant is voor "het verzoek of de interesse van de gebruiker, heeft de gebruiker mogelijk minder interesse in het bekijken van een tweede document nadat hij dezelfde of vergelijkbare informatie in een eerste document of een reeks documenten al heeft bekeken.

Het patent vertelt ons dat dit een probleem is dat moet worden opgelost. Hoe ze dat gaan doen, vertellen ze in een patentaanvraag die in april is gepubliceerd:

Hierin beschreven implementaties hebben betrekking op het bepalen van een Information Gain Score voor een of meer documenten die van potentieel belang zijn voor de gebruiker en het presenteren van informatie uit een of meer van die documenten die zijn geselecteerd op basis van hun respectievelijke scores.

Een score voor een bepaald document geeft aan ‘aanvullende informatie die door een pagina is opgenomen naast de informatie op andere pagina's die al aan de gebruiker zijn gepresenteerd’.

Informatie van pagina's kan op verschillende manieren naar een bezoeker gaan, zoals:

Het hele document openen (bijvoorbeeld in een webbrowser of een andere toepasselijke softwaretoepassing)
De volledige content van het document hoorbaar voorlezen aan de gebruiker
Extraheren en hoorbaar/visueel presenteren van opvallende informatie uit het document aan de gebruiker

Hoe wordt deze score berekend?

Bepalen van een score voor een of meer pagina's door data toe te passen die kenmerkend zijn voor de pagina's, zoals:

Hun volledige content
Opvallende geëxtraheerde informatie
Een semantische representatie (bijv. een inbedding, een kenmerkvector, een representatie van een histogram dat is gegenereerd op basis van woorden/zinnen in het document)
Een toepassing van data die indicatief zijn voor een of meer eerder gepresenteerde pagina's, samen met gegevens die indicatief zijn voor een of meer nog te presenteren (of "nieuwe") pagina's, als input voor een getraind machine learning-model om een indicatieve output te genereren van een informatiewinstscore van de een of meer nieuwe pagina's.

Het verstrekken aan de bezoeker op basis van een score, informatie van een of meer nieuwe pagina's om de waarschijnlijk verkregen informatiewinst voor de bezoeker weer te geven als de bezoeker informatie van de geselecteerde pagina's zou krijgen.

Hoe werkt deze score?

Identificatie van de eerste reeks pagina's die aan de bezoeker worden weergegeven. Identificatie van de pagina's van de eerste set die een gemeenschappelijk onderwerp delen dat eerder aan de gebruiker is verstrekt. De bezoeker kan naar een onderwerp zoeken en een of meer pagina's die op die zoekopdracht reageren.

Voor elke nieuwe pagina in de tweede reeks pagina's, het bepalen van een score, die aangeeft of die pagina informatie bevat die niet op de pagina's van de eerste reeks pagina’s staat.

Op basis van de score, het selecteren van een of meer van de nieuwe documenten om aan de gebruiker te verstrekken, en/of het rangschikken van de nieuwe documenten op basis van hun respectievelijke scores.

De nieuwe pagina's rangschikken, en naarmate de bezoeker meer pagina's bekijkt, kan de tweede reeks pagina's opnieuw worden gerangschikt op basis van nieuwe scores.

Dit kan betekenen dat sommige pagina's in ranking worden verhoogd op basis van hoeveel informatie ze zouden toevoegen voor een bezoeker en dat ze worden gedegradeerd als ze niet veel informatie toevoegen voor een bezoeker.

De Information Gain Score is een statistische maatstaf die wordt gebruikt in de beslissingsboomanalyse om te bepalen welke functies het meest informatief zijn en het beste kunnen worden gebruikt om de gegevens te classificeren. Het meet de vermindering van de entropie (mate van eenzelfde informatie) in een gegevensset na het splitsen op een bepaalde functie. Meer informatie over de Information Gain Score.

💣

TIP! Met ApplePY heb je heel veel extra scripts om topic clusters aan te maken. Maar ook nog meer dan 50+ andere scripts voor andere toepassingen. Er zijn talloze scripts en elke maand komen daar weer nieuwe scripts bij. Probeer ApplePY gratis.

Nieuwste adviezen

Gerelateerde artikelen