Attributing Model Behavior at Scale (ATTRIB)

Workshop

Attributing Model Behavior at Scale (ATTRIB)

Elisa Nguyen · Sadhika Malladi · Andrew Ilyas · Logan Engstrom · Sam Park · Tolga Bolukbasi

West Meeting Room 205-207

Sat 14 Dec, 8:15 a.m. PST

[ Abstract ] Workshop Website

[ OpenReview]

Recently-developed algorithmic innovations (e.g., transformers, diffusion models , state-space models) and large-scale datasets (e.g., Common Crawl, LAION) have given rise to machine learning models with impressive capabilities. As the cost of training such large models grows, and as systems based on them are used widely, it is increasingly important to understand how different design choices combine to induce observed behaviors. For example, we still do not fully understand how the composition of training datasets influences model behavior (e.g., how does training on code data affect reasoning capabilities in other domains?), how to attribute capabilities to subcomponents (e.g., can we identify which subnetwork of an LLM implements addition), and which algorithmic choices really drive performance (e.g., how can we best align models to human preferences?). Behavioral attribution is also important in light of recent concerns about harmful model behavior and several works suggest that these behaviors can be attributed to training data or model architecture and size.The core challenge in all of these questions is that of model behavior attribution.That is, the question of relating model behavior back to factors in the machine learning pipeline---such as the choice of training dataset or particular training algorithm---that produced this model. This workshop aims to bring together researchers and practitioners that advance our understanding of model behavior attribution in the contexts that span data, model understanding, and algorithmic interventions.

Chat is not available.

Timezone: America/Los_Angeles

Schedule

Sat 9:00 a.m. - 9:20 a.m.	Welcome and Opening Remarks SlidesLive Video	🔗
Sat 9:30 a.m. - 10:00 a.m.	Invited Talk ( Surbhi Goel ) > SlidesLive Video	🔗
Sat 10:00 a.m. - 10:30 a.m.	Invited Talk ( Sanmi Koyejo ) > SlidesLive Video	🔗
Sat 11:05 a.m. - 11:50 a.m.	Contributed talks ( Contributed talks ) > SlidesLive Video	🔗
Sat 1:00 p.m. - 2:00 p.m.	Panel: On Linear Representations and Pretraining Data Frequency in Language Models When Attention Sink Emerges in Language Models: An Empirical View Common Functional Decompositions Can Mis-attribute Differences in Outcomes Between Populations U-shape SlidesLive Video	🔗
Sat 2:00 p.m. - 2:30 p.m.	Invited Talk ( Baharan Mirzasoleiman ) > SlidesLive Video	🔗
Sat 2:30 p.m. - 3:00 p.m.	Invited Talk ( Robert Geirhos ) > SlidesLive Video	🔗
Sat 3:00 p.m. - 3:30 p.m.	Coffee break	🔗
Sat 3:30 p.m. - 4:30 p.m.	Poster session #2	🔗
Sat 4:30 p.m. - 5:00 p.m.	Invited Talk ( Seong Joon Oh ) > SlidesLive Video	🔗
Sat 5:00 p.m. - 5:15 p.m.	Closing remarks	🔗
-	Loss-to-Loss Prediction: Language model scaling laws across datasets ( Poster ) >	David Brandfonbrener · Nikhil Anand · Nikhil Vyas · Eran Malach · Sham Kakade 🔗
-	You can remove GPT2's LayerNorm by fine-tuning ( Poster ) >	Stefan Heimersheim 🔗
-	Training on the Test Task Confounds Evaluation and Emergence ( Poster ) >	Ricardo Dominguez-Olmedo · Florian E. Dorner · Moritz Hardt 🔗
-	Toward Optimal Search and Retrieval for RAG ( Poster ) >	Alexandria Leto · Cecilia Aguerrebere · Ishwar Bhati · Theodore Willke · Mariano Tepper · Vy Vo 🔗
-	The Association Between Training Data and Text-to-Image Generation Capabilities ( Poster ) >	Preethi Seshadri · Yasaman Razeghi · Sameer Singh · Yanai Elazar 🔗
-	A Versatile Influence Function for Data Attribution with Non-Decomposable Loss ( Poster ) >	Junwei Deng · Weijing Tang · Jiaqi Ma 🔗
-	Adversarial Attacks on Data Attribution ( Poster ) >	Xinhe Wang · Pingbang Hu · Junwei Deng · Jiaqi Ma 🔗
-	U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models ( Poster ) >	Tung-Yu Wu · Melody Lo 🔗
-	BAKU: An Efficient Transformer for Multi-Task Policy Learning ( Poster ) >	Siddhant Haldar · Zhuoran Peng · Lerrel Pinto 🔗
-	Investigating Sensitive Directions in GPT-2: An Improved Baseline and Comparative Analysis of SAEs ( Poster ) >	Daniel Lee · Stefan Heimersheim 🔗
-	Data Attribution for Multitask Learning ( Poster ) >	Yiwen Tu · Ziqi Liu · Jiaqi Ma · Weijing Tang 🔗
-	Hessian Sets: Uncovering Feature Interactions in Image Classification ( Poster ) >	Ayushi Mehrotra · Dipkamal Bhusal · Nidhi Rastogi 🔗
-	Activation Monitoring: Advantages of Using Internal Representations for LLM Oversight ( Poster ) >	Oam Patel · Rowan Wang 🔗
-	Better Counterfactual Model Reasoning with Submodular Quadratic Component Models ( Poster ) >	Ari Karchmer · Seth Neel · Harshay Shah · Andrew Ilyas 🔗
-	Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in LLMs ( Poster ) >	Aashiq Muhamed · Jake Mendel · Lucius Bushnaq · Mona Diab · Virginia Smith 🔗
-	Investigating Language Model Dynamics using Meta-Tokens ( Poster ) >	Alok Shah · Khush Gupta · Keshav Ramji · Vedant Gaur 🔗
-	How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold ( Poster ) >	Sahil Verma · Royi Rassin · Arnav Das · Gantavya Bhatt · Preethi Seshadri · Chirag Shah · Jeff A Bilmes · Hannaneh Hajishirzi · Yanai Elazar 🔗
-	Inconsistencies In Consistency Models: Better ODE Solving Does Not Imply Better Samples ( Poster ) >	Noël Vouitsis · Rasa Hosseinzadeh · Brendan Ross · Valentin Villecroze · Satya Krishna Gorti · Jesse Cresswell · Gabriel Loaiza-Ganem 🔗
-	Understanding Compute-Parameter Trade-offs in Sparse Mixture-of-Expert Language Models ( Poster ) >	Harshay Shah · Vimal Thilak · Dan Busbridge · Alaaeldin El-Nouby · Joshua Susskind · Samira Abnar 🔗
-	Attributing Mistakes to Individuals under Label Noise ( Poster ) >	Sujay Nagaraj · Yang Liu · Flavio Calmon · Berk Ustun 🔗
-	Pruning-based Data Selection and Network Fusion for Efficient Deep Learning ( Poster ) >	Humaira Kousar · Hasnain Irshad Bhatti · Jaekyun Moon 🔗
-	Algorithmic Phase Transitions in Large Language Models: A Mechanistic Case Study of Arithmetic ( Poster ) >	Alan Sun · Ethan Sun · Warren Shepard 🔗
-	Secret Seeds in Text-to-Image Diffusion Models ( Poster ) >	Katherine Xu · Lingzhi Zhang · Jianbo Shi 🔗
-	Influence-based Attributions can be Manipulated ( Poster ) >	Chhavi Yadav · Ruihan Wu · Kamalika Chaudhuri 🔗
-	Just Select Twice: Leveraging Low Quality Data to Improve Data Selection ( Poster ) >	Yifei Zhang · Yusen Jiao · Jiayi Chen · Jieyu Zhang · Frederic Sala 🔗
-	Generalization v.s. Memorization: Tracing Language Models’ Capabilities Back to Pretraining Data ( Poster ) >	Xinyi Wang · Antonis Antoniades · Yanai Elazar · Alfonso Amayuelas · Alon Albalak · Kexun Zhang · William Yang Wang 🔗
-	$\texttt{dattri}$: A Library for Efficient Data Attribution ( Poster ) > link Link	Junwei Deng · Ting-Wei Li · Shiyuan Zhang · Shixuan Liu · Yijun Pan · Hao Huang · Xinhe Wang · Pingbang Hu · Xingjian Zhang · Jiaqi Ma 🔗
-	Latent Concept-based Explanation of NLP Models ( Poster ) >	Xuemin Yu · Fahim Dalvi · Nadir Durrani · Marzia Nouri · Hassan Sajjad 🔗
-	Using Influence Functions to Unlearn Poisons ( Poster ) >	Wenjie Li · Jiawei Li · Christian Schroeder de Witt · Ameya Prabhu · Amartya Sanyal 🔗
-	Efficient Ensembles Improve Training Data Attribution ( Poster ) >	Junwei Deng · Ting-Wei Li · Shichang (Ray) Zhang · Jiaqi Ma 🔗
-	Fast Training Dataset Attribution via In-Context Learning ( Poster ) >	Milad Fotouhi · Taha Bahadori · Oluwaseyi Feyisetan · Payman Arabshahi · David Heckerman 🔗
-	Between the Bars: Gradient-based Jailbreaks are Bugs that induce Features ( Poster ) >	Kaivalya Hariharan · Uzay Girit 🔗
-	Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling ( Poster ) > link Link	Haider Al-Tahan · Quentin Garrido · Randall Balestriero · Diane Bouchacourt · Caner Hazirbas · Mark Ibrahim 🔗
-	Interactive Semantic Interventions for VLMs: A Human-in-the-Loop Approach to Interpretability ( Poster ) >	Lukas Klein · Kenza Amara · Carsten Lüth · Hendrik Strobelt · Mennatallah El-Assady · Paul Jaeger 🔗
-	GPT-2 Through the Lens of Vector Symbolic Architectures ( Poster ) >	Johannes Knittel · Tushaar Gangavarapu · Hendrik Strobelt · Hanspeter Pfister 🔗
-	Understanding the Sources of Performance in Deep Drug Response Models ( Poster ) >	Nikhil Branson · Pedro Cutillas · Conrad Bessant 🔗
-	What's In My Big Data? ( Poster ) >	13 presenters Yanai Elazar · Akshita Bhagia · Ian Magnusson · Abhilasha Ravichander · Dustin Schwenk · Alane Suhr · Evan Walsh · Dirk Groeneveld · Luca Soldaini · Sameer Singh · Hannaneh Hajishirzi · Noah Smith · Jesse Dodge 🔗
-	In Search of Forgotten Domain Generalization ( Poster ) >	Prasanna Mayilvahanan · Roland S. Zimmermann · Thaddäus Wiedemer · Evgenia Rusak · Attila Juhos · Matthias Bethge · Wieland Brendel 🔗
-	Quantifying Positional Biases in Text Embedding Models ( Poster ) >	Samarth Goel · Reagan Lee · Kannan Ramchandran 🔗
-	SCIURus: Shared Circuits for Interpretable Uncertainty Representations in Language Models ( Poster ) >	Carter Teplica · Yixin Liu · Arman Cohan · Tim G. J. Rudner 🔗
-	Attributing Statistics to Synthesis Quality in Correlation-Based Texture Models ( Poster ) >	Vasha DuTell · Anne Harrington · Zeyu Yun · Mark Hamilton · Christian Koevesdi · Edward Adelson · Bill Freeman · Ruth Rosenholtz 🔗
-	Weak-to-Strong Confidence Prediction ( Poster ) >	Yukai Yang · Tracy Zhu · Marco Morucci · Tim G. J. Rudner 🔗
-	Feature Responsiveness Scores: Model-Agnostic Explanations for Agency ( Poster ) >	Seung Hyun Cheon · Anneke Wernerfelt · Sorelle Friedler · Berk Ustun 🔗
-	Ablation is Not Enough to Emulate DPO: Attributing Toxicity Reduction to Neurons ( Poster ) >	Yushi Yang · Filip Sondej · Harry Mayne · Adam Mahdi 🔗
-	From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty ( Poster ) >	Maor Ivgi · Ori Yoran · Jonathan Berant · Mor Geva 🔗
-	Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods ( Poster ) >	Dennis Wei · Inkit Padhi · Soumya Ghosh · Amit Dhurandhar · Karthikeyan Natesan Ramamurthy · Maria Chang 🔗
-	Data Valuation for Graphs ( Poster ) >	Simone Antonelli · Aleksandar Bojchevski 🔗
-	Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization ( Poster ) >	Noam Razin · Sadhika Malladi · Adithya Bhaskar · Danqi Chen · Sanjeev Arora · Boris Hanin 🔗
-	How much can we forget about Data Contamination? ( Poster ) >	Sebastian Bordt · Suraj Srinivas · Valentyn Boreiko · Ulrike Luxburg 🔗
-	A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification ( Poster ) >	Aryan Singhal · Veronica Shao · Gary Sun · Ryan Ding 🔗
-	Accumulated Local Effects for Link Prediction with Graph Neural Networks ( Poster ) >	Paulina Kaczyńska · Julian Sienkiewicz · Dominik Slezak 🔗
-	Generalized Group Data Attribution ( Poster ) >	Dan Ley · Suraj Srinivas · Shichang (Ray) Zhang · Himabindu Lakkaraju 🔗
-	Influence Functions for Scalable Data Attribution in Diffusion Models ( Poster ) >	Bruno Mlodozeniec · Runa Eschenhagen · Juhan Bae · Alexander Immer · David Krueger · Richard Turner 🔗
-	Approximations to worst-case data dropping: unmasking failure modes ( Poster ) >	Jenny Huang · David Burt · Tin Nguyen · Yunyi Shen · Tamara Broderick 🔗
-	What do Learning Dynamics Reveal about Generalization in LLM Reasoning? ( Poster ) >	Yijun Kang · Amrith Setlur · Dibya Ghosh · Jacob Steinhardt · Claire Tomlin · Sergey Levine · Aviral Kumar 🔗
-	GRADE: A Fine-grained Approach to Measure Sample Diversity in Text-to-Image Models ( Poster ) >	Royi Rassin · Aviv Slobodkin · Shauli Ravfogel · Yanai Elazar · Yoav Goldberg 🔗
-	Peter Parker or Spiderman? Disambiguating Multiple Class Labels ( Poster ) >	NUTHAN NAGA SAI MUMMANI · SIMRAN KETHA · Venkatakrishnan Ramaswamy 🔗
-	Detecting Origin Attribution for Text-to-Image Diffusion Models in RGB and Beyond ( Poster ) >	Katherine Xu · Lingzhi Zhang · Jianbo Shi 🔗
-	Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond ( Poster ) > link Link	Dilyara Bareeva · Galip Ümit Yolcu · Anna Hedström · Niklas Schmolenski · Thomas Wiegand · Wojciech Samek · Sebastian Lapuschkin 🔗
-	Evaluating Sparse Autoencoders on Targeted Concept Removal Tasks ( Poster ) >	Adam Karvonen · Can Rager · Samuel Marks · Neel Nanda 🔗
-	Small-to-Large Generalization: Training Data Influences Models Consistently Across Scale ( Poster ) >	Alaa Khaddaj · Logan Engstrom · Aleksander Madry 🔗
-	When Attention Sink Emerges in Language Models: An Empirical View ( Poster ) >	Xiangming Gu · Tianyu Pang · Chao Du · Qian Liu · Fengzhuo Zhang · Cunxiao Du · Ye Wang · Min Lin 🔗
-	Weak-to-Strong In-Context Optimization of Language Model Reasoning ( Poster ) >	Keshav Ramji · Alok Shah · Vedant Gaur · Khush Gupta 🔗
-	Towards a Mechanistic Explanation of Diffusion Model Generalization ( Poster ) >	Matthew Niedoba · Berend Zwartsenberg · Kevin Murphy · Frank Wood 🔗
-	Most Influential Subset Selection: Challenges, Promises, and Beyond ( Poster ) >	Yuzheng Hu · Pingbang Hu · Han Zhao · Jiaqi Ma 🔗
-	Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison ( Poster ) >	Judy Hanwen Shen · Archit Sharma · Jun Qin 🔗
-	Evaluating Synthetic Activations composed of SAE Latents in GPT-2 ( Poster ) >	Nora Petrova · Giorgi Giglemiani · Chatrik Mangat · Jett Janiak · Stefan Heimersheim 🔗
-	Evolution of SAE Features Across Layers in LLMs ( Poster ) >	Benjamin Lerner · Daniel Balcells · Michael Oesterle · Ediz Ucar · Stefan Heimersheim 🔗
-	Accumulating Data Avoids Model Collapse ( Poster ) >	Joshua Kazdan · Apratim Dey · Rylan Schaeffer · Matthias Gerstgrasser · Rafael Rafailov · David Donoho · Sanmi Koyejo 🔗
-	The Mutual Relationship between Corpus Frequency and Linear Representations in Language Models ( Poster ) >	Jack Merullo · Sarah Wiegreffe · Yanai Elazar 🔗
-	Common Functional Decompositions Can Mis-attribute Differences in Outcomes Between Populations ( Poster ) >	Manuel Quintero · William Stephenson · Advik Shreekumar · Tamara Broderick 🔗
-	Evaluating Sparse Autoencoders for Controlling Open-Ended Text Generation ( Poster ) >	Aleksandar Makelov · Nathaniel Monson · Julius Adebayo 🔗
-	A hierarchical decomposition for explaining ML performance discrepancies ( Poster ) >	Harvineet Singh · Fan Xia · Adarsh Subbaswamy · Alexej Gossmann · Jean Feng 🔗
-	Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models ( Poster ) >	Hongchuan Zeng · Senyu Han · Lu Chen · Kai Yu 🔗
-	Do I Know This Entity? Knowledge Awareness in Language Models ( Poster ) >	Javier Ferrando · Oscar Obeso · Neel Nanda · Senthooran Rajamanoharan 🔗
-	Bias Analysis for Unconditional Image Generative Models ( Poster ) >	Xiaofeng Zhang · Simon Lacoste-Julien · Aaron Courville · Yash Goyal 🔗
-	Inductive Linguistic Reasoning with Large Language Models ( Poster ) >	Raghav Ramji · Keshav Ramji 🔗
-	ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models ( Poster ) >	Nandan Kumar Jha · Brandon Reagen 🔗