Pomáhá počítačům naučit se řešit problémy s velkými daty mimo jejich komfortní zóny

Week 0 (Duben 2019).

Anonim

Představte si, že se prolíná tisíce mugshotů, kteří zoufale hledají zápas. Pokud je čas podstatný, čím rychleji to dokážete, tím lépe. Výzkumníci společnosti A * STAR vyvinuli rámec, který by pomohl počítačům naučit se zpracovávat a identifikovat tyto obrázky rychleji a přesněji.

Peng Xi společnosti A * STAR Institute for Infocomm Research konstatuje, že rámec může být použit pro řadu aplikací, včetně segmentace obrazu, segmentace pohybu, shlukování dat, identifikace hybridního systému a zobrazení obrazu.

Konvenční způsob, jakým počítače zpracovávají data, se nazývá reprezentativní učení. To zahrnuje identifikaci funkce, která umožňuje programu rychle extrahovat relevantní informace z datové sady a roztřídit je - trochu jako zástupce. Dohledové a neupravené učení jsou dvěma hlavními metodami používanými v reprezentačním učení. Na rozdíl od supervizovaného učení, které spoléhá na nákladné označování dat před zpracováním, neověřené učení zahrnuje shromažďování nebo shlukování dat podobným způsobem jako naše mozky, vysvětluje Peng.

Subspace clustering je forma neověřeného učení, které usiluje o přizpůsobení každého datového bodu do nízkodimenzionálního subprostoru, aby našel vnitřní houževnatost, která činí složité, reálné datové údaje. Stávající metody clustering v subspacech se potýkají se zpracováním "neznámých" datových bodů a velkých datových souborů, které jsou dnes běžné.

"Jednou z výzev velkého datového období je uspořádání mimošampionových dat pomocí modelu strojového učení založeného na" vzorku "nebo známých pozorovacích datech, " vysvětluje Peng, který s kolegy navrhl tři metody jako součást jednotného rámce pro řešení této otázky. Tyto metody se liší tím, jak provádějí reprezentaci; jeden se zaměřuje na sparsity, zatímco ostatní dva se zaměřují na efekty nízkého stupně a seskupování. "Řešením rozsáhlých problémů s daty a mimo klastrování se naše metoda stává" clustering "velkých dat a online učení, " poznamenává Peng.

Rámec vytvořený týmem rozděluje vstupní data do dat "v rámci výběrového souboru" nebo "mimo data" během počátečního kroku "odběru vzorků". Dále jsou data ve vzorku seskupena do podprostoru během kroku "clustering", po němž jsou data mimo vzorku přiřazena nejbližšímu dílčímu prostoru. Tyto body jsou pak označeny jako členové klastrů.

Tým testoval jejich přístup na celé řady datových souborů včetně různých typů informací, od obličejových obrazů po text - ručně psané i ručně digitální pokerové ruce a pokrytí lesů. Zjistili, že jejich metody překonaly existující algoritmy a úspěšně snížily výpočetní složitost (a tím i čas běhu) úkolu při současném zajištění kvality klastru.

menu
menu