Masteruppsats: Vektorisering av tabeller till RAG
Artificiell intelligens håller på att omvandla samhället. AI Sweden är det nationella centret för tillämpad artificiell intelligens, gemensamt finansierat av den svenska regeringen och våra partners, både offentliga och privata. Vårt uppdrag är att accelerera användningen av AI till nytta för vårt samhälle, vår konkurrenskraft och för alla som bor i Sverige. Vi söker nu masteruppsatsstudent(er) för att ytterligare stärka vårt SVEA-team.
Introduktion
En stor del av många organisationers data, såsom budgetar, statistiska rapporter, regelverk och tekniska specifikationer, är ofta kommunicerade genom tabeller i icke-strukturerade PDF-, Word- eller Markdown-dokument. Att manuellt och genom regel-baserad metoder tolka dessa är ineffektivt och fel benäget. Det har utvecklats lösningar för detta med hjälp av språkmodeller, men dessa lösningar har också hittats vara felbenägna.
Detta projekt syftar till att utforska hur vi effektivt kan extrahera relevant information från tabeller. Ert projektet kommer utveckla en robust pipeline för att automatiskt extrahera tabellbaserad data från dokument och omvandla den till meningsfulla vektorrepresentationer. Denna vektoriserade tabellinformation ska sedan integreras i ett RAG-verktyg för att förbättra förmågan att ställa komplexa frågor som kräver både textuell och strukturell data (t.ex. "Vilken budgetpost påverkades av den nya lagen enligt 2023 års budgettabell?"). Ni kommer att bygga en lösning som fokuserar på att överbrygga klyftan mellan den visuella layouten av en tabell och dess semantiska innehåll, vilket är avgörande för att leverera högkvalitativa svar genom RAG.
Forskningsfrågor och tekniska utmaningar
Parsning av tabeller
Hur kan vi utveckla eller anpassa state-of-the-art metoder (t.ex. baserade på OCR, multimodala neurala nätverk eller LLM:er) för att exakt parsa och strukturbestämma komplexa tabeller i svenska offentliga dokument?
Semantiska tabellvektorer
Hur kan vi anpassa och använda neurala nätverk för att representera en tabells struktur, rubriker och datainnehåll som en enda, meningsfull vektor? Hur konstruerar vi specialiserade vektorer som fångar den semantiska informationen samt relationer mellan de olika fälten?
Sökbara tabeller
Vilka strategier är mest effektiva för att segmentera den extraherade och vektoriserade tabellinformationen för att maximera relevansen vid inhämtning? Hur säkerställer vi att de inbäddade tabellfragmenten effektivt kan matchas mot frågor i chat format?
Kvalitetssäkring och datarengöring
Hur säkerställer vi att datan har korrekt extraherats från dokument? Vilka strategier kan vi använda för att identifiera, imputera eller hantera saknade eller inkonsekventa data i de extraherade tabellerna?
Målgrupp och bidrag
Detta projekt är för studenter på masternivå med starkt intresse för NLP, Data Science och gränssnittet mellan strukturerad och icke-strukturerad data. Exakt på vad fokuset kommer att ligga tas fram tillsammans med de aktuella studenterna och baseras på deras erfarenheter och expertis. Resultaten från uppsatsen kommer att bidra till att tillgängliggöra kritisk data inom den svenska offentliga sektorn och därmed förbättra beslutsunderlag och transparens. Detta projekt är inom SVEA
Kontakt
Adam Ek, adam.ek@ai.se
Referenser
1. Heng Gong, Xiaocheng Feng, Bing Qin, and Ting Liu. Table-to-text generation with effective hierarchical encoder on three dimensions (row, column and time). CoRR, abs/1909.02304, 2019.
2. Dehai Min, Nan Hu, Rihui Jin, Nuo Lin, Jiaoyan Chen, Yongrui Chen, Yu Li, Guilin Qi, Yun Li, Nijun Li, et al. Exploring the impact of table-to-text methods on augmenting llm-based question answering with domain hybrid data. arXiv preprint arXiv:2402.12869, 2024.
3. Cornelius Wolff and Madelon Hulsebos. How well do llms reason over tabular data, really? arXiv preprint arXiv:2505.07453, 2025.
4. Chi Zhang and Qiyang Chen. Hd-rag: Retrieval-augmented generation for hybrid documents containing text and hierarchical tables. arXiv preprint arXiv:2504.09554, 2025.
Why should you do your master together whit AI Sweden?
To us, artificial intelligence is not only about tech, it’s a force for positive societal change. You'll be working alongside leading AI experts, scientists, journalists, linguists, policy professionals, entrepreneurs, change leaders, and many more. To work here, you don’t need to know “everything” about AI, but you need to believe in its potential to help shape our society for the better.
As an organization, we’re uniquely positioned at the sweet spot of governmental influence and startup agility. Small enough to stay adaptive and have fun but backed by and in close contact with both the government, academia and private and public sector.
Join us to make a real-world impact by contributing to initiatives that benefit society and tackle critical challenges. Be at the forefront of AI innovation, working with cutting-edge technologies and playing a key role in shaping the future of AI in Sweden.
And, within our mission, we can most certainly be a platform empowering you to realize your ideas. AI Sweden’s ability to empower partners and individual team members to do exceedingly well in their profession is a key success factor for driving positive and significant impact.
In short, we like to believe we offer our team members a place to grow, an environment for personal development.
An equal and fair working environment
We strongly believe in diversity and inclusion and are acutely aware of the skewed gender balance in our industry. We actively strive to put together a diverse team in terms of age, gender and background.
At AI Sweden, we are committed to building diverse and inclusive teams. Some positions may be subject to export control regulations, which means that specific requirements may apply depending on the role. If relevant, we will inform you clearly during the recruitment process.
AI Sweden does not accept unsolicited support and kindly ask not to be contacted by any advertisement agents, recruitment agencies or manning companies.
- Organization
- AI Labs
- Role
- Data Science
- Locations
- Göteborg
About AI Sweden
As Sweden's national center for applied AI, we're on a mission to accelerate the use of AI to benefit our society, our competitiveness, and everyone living in Sweden. We drive impactful initiatives in areas such as healthcare, energy, and public services while pushing the boundaries of AI research in fields such as natural language processing and machine learning. Join us in harnessing the untapped value of AI to drive innovation and create sustainable value for Sweden.