Ontdek alle mogelijkheden met ApplePY. Bekijk alle features

BLIP-2 Visual Language Model

Vision language models
een introductie van BLIP-2

BLIP-2 wanneer twee werelden samenkomen

BLIP-2 wanneer twee werelden samenkomen

ChatGPT kwam als een conversational interface, waar je op een menselijke manier een chatbot vragen kunt stellen, die dit dan voor je doet of maakt. Echter, ChatGPT kan geen afbeeldingen beschrijven of zoals gezegd: een text-to-image afbeelding maken. En het kan al helemaal niet discussieren over een afbeelding.

Vision language models: wat is het en wat maakt het zo moeilijk

In het afgelopen jaar is er veel onderzoek gedaan naar language models (LMs). Aan de andere kant, zijn afbeeldingen geanalyseerd door het gebruik van convolutional neural networks, totdat het afgelopen jaar een manier is gevonden op transformers met afbeeldingen te koppelen (Vision Transformers, ViTs).

Aan de ene kant zijn er vragen die niet alleen door tekst of alleen door beeld beantwoord kunnen worden, dus is er een model nodig dat de twee kan combineren. Bijvoorbeeld taken als image captioning, visuele vraagbeantwoording, en nog veel meer.

blip-2 visual language model

Ook is het trainen van LM's extreem duur, in feite heb je een grote hoeveelheid data en parameters nodig. De schalingswet stelt dat sommige opkomende gedragingen alleen worden opgemerkt bij een bepaald aantal parameters. Dit heeft geleid tot de wedloop naar steeds grotere en bekwamere modellen, maar toch zijn daarvoor enorm veel data nodig, zowel hardware als data. Sommige studies tonen echter aan dat zulke grote modellen misschien niet eens nodig zijn, maar dat er gewoon meer aandacht moet worden besteed aan de data.

We hebben dus een model nodig dat vragen kan beantwoorden over zowel afbeeldingen als tekst (visueel model) en misschien vragen kan beantwoorden met ChatGPT, meer niet: BLIP-2 is wat je nodig hebt en het beste is dat de controlepunten er zijn op HuggingFace.

blip2

Een introductie van BLIP-2

Zoals de auteurs zeggen is er enige belangstelling voor Vision-language models, maar het was duur om zo’nn model te trainen. In feite maak je een model en gebruik je zowel afbeeldingen als tekst om het te trainen, dit vereist enorme datasets van afbeeldingen en tekst.

Met andere woorden, je neemt een taalmodel en een visueel model en voegt ze samen, zonder ze zelfs maar te hoeven trainen.

Een model dat op de tekst is getraind heeft tijdens de training geen beeld gezien, en wanneer we een tekstuele vraag willen stellen over een beeld hebben we de genoemde afstemming nodig tussen de tekstuele en visuele componenten van een visueel-taalmodel (dit is trouwens het meest uitdagende deel).

Aan de andere kant, Google had Flamingo, een afbeelding-naar-tekst model, maar deze was niet efficiënt genoeg om op de markt te brengen. Daar brachten de auteurs van BLIP-2 nog enkele toevoegingen aan:

Wat is deze Q-Former precies? een lichtgewicht module (nog een kleine transformator) die de algemene mogelijkheden van het model vergroot. Deze mini-transformer leert query vectoren, deze vectoren worden gebruikt om informatie uit de bevroren visuele encoder te halen. Met andere woorden, het beeld gaat door het visuele model en we krijgen een representatie van het beeld, deze wordt vervolgens aangepast door de Q-former, zodat de LM's kunnen begrijpen wat er in het beeld staat en dit kunnen uitvoeren naar tekst.
Tijdens de training gebruikten de auteurs vision-language representation learning zodat de Q-former de visuele representaties kan leren die het meest relevant zijn voor de tekst. Vervolgens gebruikten zij vision-to-language generative learning om ervoor te zorgen dat de output van de Q-former door LM's kan worden geïnterpreteerd. De Q-former is dus eigenlijk de brug die de andere twee componenten van het model met elkaar verbindt, informatie uit het visuele model haalt, en die opwerkt tot iets dat door het taalmodel kan worden begrepen.

Nieuwste adviezen

Gerelateerde artikelen