Masteruppsats: Multimodal RAG: Förbättrad Sökning & Tillgänglighet
Artificiell intelligens håller på att omvandla samhället. AI Sweden är det nationella centret för tillämpad artificiell intelligens, gemensamt finansierat av den svenska regeringen och våra partners, både offentliga och privata. Vårt uppdrag är att accelerera användningen av AI till nytta för vårt samhälle, vår konkurrenskraft och för alla som bor i Sverige. Vi söker nu masteruppsatsstudent(er) för att ytterligare stärka vårt SVEA-team.
Introduktion
Organisationer hanterar en växande mängd information som inte bara består av text utan även av bilder, diagram, kartor och tekniska ritningar i dokument. Att snabbt och träffsäkert hämta relevant information ur dessa multimodala arkiv är avgörande för effektivt beslutsfattande och medborgarservice. Detta projekt syftar till att designa och implementera ett proof-of-concept för multimodal sökning specifikt anpassat till vårt RAG-system för den svenska offentliga sektorn. Ett centralt mål är att möjliggöra kraftfulla, semantiska sökningar som fungerar över både text och visuellt innehåll, vilket innebär att användare kan söka efter en bild med text och vice versa.
Genom att skapa gemensamma vektorinbäddningar för text och de visuella elementen i dokumenten ska verktyget möjliggöra semantiska sökningar som kombinerar naturligt språk med bildförståelse. Detta ska avsevärt förbättra relevansen och kvaliteten på den genererade informationen i ett RAG-system. Målet är att bygga en end-to-end-lösning som demonstrerar hur man kan överbrygga klyftan mellan textuellt och visuellt innehåll för att hantera komplexa frågor (t.ex. "Vilka ritningar har denna typ av ventil och vilken lagstiftning gäller för dess installation?").
Forskningsfrågor och tekniska utmaningar
Multimodal vektorisering
Hur kan vi effektivt extrahera och omvandla visuellt innehåll i dokument (diagram, tabeller, grafer, foton) till vektorrepresentationer med hjälp av modeller som CLIP eller Vision Transformers? Fokus ligger på att representationen ska fånga det visuella elementets kontextuella och semantiska mening i förhållande till den omgivande texten.
Multimodal sökning
Hur ska vi strukturera och träna/finjustera modeller (eller använda färdigtränade) så att text- och bildvektorer från relaterat innehåll (t.ex. en beskrivande text och det diagram det refererar till) hamnar nära varandra i ett gemensamt vektorutrymme? Denna integrering är grunden för att kunna söka textuellt efter visuella element och vice versa.
RAG-integration och utvärdering
Hur integreras de multimodala sökresultaten i ett RAG-system för att formulera ett koherent och korrekt svar? Vilka mått bör användas för att utvärdera kvaliteten, relevansen och hallucinationer i det multimodala RAG-systemet jämfört med ett rent textbaserat RAG-system?
Målgrupp och bidrag
Detta projekt är för studenter på masternivå som är passionerade för maskininlärning, språkmodeller, computer vision, information retrieval och som vill bidra till utvecklingen av nästa generations verktyg för kunskapshantering. Exakt på vad fokuset kommer att ligga tas fram tillsammans med de aktuella studenterna och baseras på deras erfarenheter och expertis.
Resultaten från uppsatsen kommer förbättra effektiviteten och datakvaliteten inom svensk offentlig sektor genom att låsa upp värdet i deras visuella datatillgångar och förbättra den övergripande sökbarheten. Detta projekt är inomSVEA
Kontakt
Adam Ek, adam.ek@ai.se
Referenser
1. Heng Gong, Xiaocheng Feng, Bing Qin, and Ting Liu. Table-to-text generation with effective hierarchical encoder on three dimensions (row, column and time). CoRR, abs/1909.02304, 2019.
2. Dehai Min, Nan Hu, Rihui Jin, Nuo Lin, Jiaoyan Chen, Yongrui Chen, Yu Li, Guilin Qi, Yun Li, Nijun Li, et al. Exploring the impact of table-to-text methods on augmenting llm-based question answering with domain hybrid data. arXiv preprint arXiv:2402.12869, 2024.
3. Cornelius Wolff and Madelon Hulsebos. How well do llms reason over tabular data, really? arXiv preprint arXiv:2505.07453, 2025.
4. Chi Zhang and Qiyang Chen. Hd-rag: Retrieval-augmented generation for hybrid documents containing text and hierarchical tables. arXiv preprint arXiv:2504.09554, 2025.
Why should you do your master together whit AI Sweden?
To us, artificial intelligence is not only about tech, it’s a force for positive societal change. You'll be working alongside leading AI experts, scientists, journalists, linguists, policy professionals, entrepreneurs, change leaders, and many more. To work here, you don’t need to know “everything” about AI, but you need to believe in its potential to help shape our society for the better.
As an organization, we’re uniquely positioned at the sweet spot of governmental influence and startup agility. Small enough to stay adaptive and have fun but backed by and in close contact with both the government, academia and private and public sector.
Join us to make a real-world impact by contributing to initiatives that benefit society and tackle critical challenges. Be at the forefront of AI innovation, working with cutting-edge technologies and playing a key role in shaping the future of AI in Sweden.
And, within our mission, we can most certainly be a platform empowering you to realize your ideas. AI Sweden’s ability to empower partners and individual team members to do exceedingly well in their profession is a key success factor for driving positive and significant impact.
In short, we like to believe we offer our team members a place to grow, an environment for personal development.
An equal and fair working environment
We strongly believe in diversity and inclusion and are acutely aware of the skewed gender balance in our industry. We actively strive to put together a diverse team in terms of age, gender and background.
At AI Sweden, we are committed to building diverse and inclusive teams. Some positions may be subject to export control regulations, which means that specific requirements may apply depending on the role. If relevant, we will inform you clearly during the recruitment process.
AI Sweden does not accept unsolicited support and kindly ask not to be contacted by any advertisement agents, recruitment agencies or manning companies.
- Organization
- AI Labs
- Role
- Data Science
- Locations
- Göteborg
About AI Sweden
As Sweden's national center for applied AI, we're on a mission to accelerate the use of AI to benefit our society, our competitiveness, and everyone living in Sweden. We drive impactful initiatives in areas such as healthcare, energy, and public services while pushing the boundaries of AI research in fields such as natural language processing and machine learning. Join us in harnessing the untapped value of AI to drive innovation and create sustainable value for Sweden.