Tony Sellprano

Náš prodejní AI agent

Oznamujeme naši investici odMiton

LLM bezpečnost & Reverse Engineering

Extrakce tajemství: Extrakce modelu prostřednictvím bias map

Výzkumný projekt

Průlomové LLM Reverse-Engineering

Vyvinuli jsme novou metodu pro rekonstrukci interních modelových predikcí (logitů) pomocí pouze přístupu k bias map API, i v black-box scénářích.

Nový API útočný vektor odhalen

Objevili a demonstrovali jsme významnou zranitelnost, ukázali jak lze omezené API funkce zneužít k extrakci citlivých modelových informací.

Kritické bezpečnostní poznatky pro LLM poskytovatele

Zvýraznili jsme hlavní implikace API bezpečnosti, naléhavě doporučující přehodnocení vystavení funkcí k ochraně komerčních jazykových modelů.

Extrakce tajemství: Extrakce modelu prostřednictvím bias map

Pozadí

Projekt Kryštofa Mitky na University of Twente zkoumal jedinečnou zranitelnost v tom, jak produkční jazykové modely vystavují určité funkce prostřednictvím svých API. Konkrétně se práce zaměřila na schopnost rekonstruovat části interních predikčních mechanismů modelu—i když je přístup k log pravděpodobnostem omezen.

Objev

Studováním funkcionalit bias map dostupných v některých API velkých jazykových modelů vyvinul Mitka techniku pro obnovení plné logit distribuce predikcí next-token. To efektivně umožňuje reverse engineering interního chování modelu bez potřeby plného API přístupu.

Práce rozšiřuje dřívější výzkum aplikováním formální transformer-based analýzy a prokázáním, že obnova logitů je možná čistě prostřednictvím kontrolované bias manipulace.

Klíčové inovace

  • Bias-Only extrakce: Metoda, která používá pouze bias mapu k odvození kompletního logit outputu.
  • Black-Box útok simulace: Demonstroval jak by útočníci mohli zneužít i omezený přístup k získání hlubokého vhledu do interních částí modelu.
  • Bezpečnostní poznatek: Tato práce signalizuje potřebu přehodnotit, které funkce je bezpečné vystavit prostřednictvím veřejných API.

Technický přístup

Mitka systematicky aplikoval bias na cílové tokeny a zaznamenával změny ve výstupní pravděpodobnosti. Z této kontrolované manipulace bylo možné odvodit základní logity. Žádné log pravděpodobnosti nebyly potřeba—pouze přístup k bias mapě.

Dopad

Tento projekt přispívá k rostoucímu povědomí o tom, jak LLM, i v prostředích s omezeným přístupem, mohou být zranitelné vůči extrakčním útokům. Nálezy jsou obzvláště relevantní pro společnosti nasazující komerční modely za API.

Pro detailní technický rozklad výzkumu a metodologie si přečtěte celý blog post od Kryštofa Mitky.

Co bude dál

Další výzkum může zkoumat mitigační techniky, jako je omezení nebo zamlžení možností bias manipulace, a lepší porozumění trade-off mezi otevřeností modelu a robustností proti reverse engineeringu.

Připraveni spolupracovat?

Pojďme projednat váš projekt a podívat se, jak můžeme pomoci.

Kontaktujte nás