Systém vize hlubokého učení předpokládá interakci s lidmi pomocí videí z televizních pořadů

Stav mysli - Psychologie kontroly myšlení -dokument (www.Dokumenty.TV) cz / sk +titulky auto (Červenec 2019).

Anonim

Když se setkáme s dvěma lidmi, můžeme často předpovědět, co se stane příště: handshake, objetí nebo možná i polibek. Naše schopnost předvídat akce je díky intuici, která se zrodila z životních zkušeností.

Stroje mají na druhé straně potíže s využitím takových komplexních znalostí. Počítačové systémy, které předpovídají akce, otevírají nové možnosti, od robotů, které lépe procházejí lidským prostředím, k systémům havarijní reakce, které předpovídají pádu, do náhlavních sluchátek ve stylu Google Glass, které vám přinášejí návrhy, co dělat v různých situacích.

Tento týden výzkumníci z laboratoře MIT Computer Science a Artificial Intelligence Laboratory (CSAIL) učinili důležitý nový průlom v prediktivním vize a vyvinuli algoritmus, který může předvídat interakce přesněji než kdykoli předtím.

Vyškolení na videích a televizních pořadech YouTube, jako je "Office" a "Desperate Housewives", systém může předpovědět, zda se dva lidé budou obejmout, políbit, potřást ruce nebo pálit pět. Ve druhém scénáři může také předvídat, jaký objekt se pravděpodobně objeví ve videu o pět sekund později.

Zatímco lidské pozdravy se mohou zdát jako libovolné akce předvídat, tento úkol sloužil jako snadněji kontrolovatelný zkušební případ pro výzkumné pracovníky.

"Lidé se automaticky naučili předvídat akce prostřednictvím zkušeností, což nás přimělo zájem o to, aby se počítače pokusily napodobovat stejný druh zdravého rozumu, " říká dr. Student CSAIL Carl Vondrick, který je prvním autorem na souvisejícím dokumentu, týden na Mezinárodní konferenci o počítačovém vidění a rozpoznávání vzorků (CVPR). "Chtěli jsme ukázat, že právě při sledování velkého množství videa mohou počítače získat dostatečné znalosti, aby mohli důsledně předpovídat jejich okolí."

Mezi spoluautory Vondricka patří profesor MIT Antonio Torralba a bývalý postdoc Hamed Pirsiavash, nyní profesor na University of Maryland.

Jak to funguje

Dřívější pokusy o prediktivní počítačové vidění obvykle používají jeden z dvou přístupů.

První metodou je podívat se na jednotlivé pixely snímku a používat tyto znalosti k vytvoření fotorealistického "budoucího" obrazu pixelů podle pixelu - úkolu, který Vondrick popisuje jako "obtížný pro profesionálního malíře, mnohem méně algoritmu". Druhým krokem je, aby lidé předem označili scénu pro počítač, což je nepraktické pro to, aby bylo možné předpovědět akce ve velkém měřítku.

Tým týmu CSAIL místo toho vytvořil algoritmus, který dokáže předpovídat "vizuální reprezentace", které jsou v podstatě freeze-frames zobrazující různé verze scény.

"Spíše než říkat, že jedna pixelová hodnota je modrá, další je červená a podobně, vizuální reprezentace odhalují informace o větším obrazu, například určitou sbírku obrazových prvků, která představuje lidskou tvář, " říká Vondrick.

Algoritmus týmu používá techniky z hlubokého učení, což je oblast umělé inteligence, která využívá systémy nazývané "neuronové sítě" k tomu, aby učí počítače, aby pórovali obrovské množství dat, aby našli vlastní vzory.

Každá ze sítí algoritmu předpovídá, že reprezentace je automaticky klasifikována jako jedna ze čtyř akcí - v tomto případě objíždění, handshake, vysoká pětka nebo polibek. Systém pak sloučí tyto akce do jednoho, který používá jako svou předpověď. Například tři sítě mohou předvídat polibek, zatímco jiný může použít skutečnost, že jiný člověk vstoupil do rámce jako odůvodnění pro předvídání obejití namísto toho.

"Video není jako kniha" Vyberte si vlastní dobrodružství ", kde můžete vidět všechny potenciální cesty, " říká Vondrick. "Budoucnost je neodmyslitelně nejednoznačná, takže je vzrušující vyzývat se k tomu, abychom vyvinuli systém, který využívá tyto reprezentace k předvídání všech možností."

Jak to bylo

Po výcviku algoritmu o 600 hodinách neoznačeného videa tým testoval na nových videích, které ukazovaly jak akce, tak objekty.

Když se zobrazí video s lidmi, kteří jsou vzdáleni jedna vteřina od výkonu jedné ze čtyř akcí, algoritmus správně předpověděl akci více než 43 procent času, což je srovnatelné s existujícími algoritmy, které mohou činit pouze 36 procent času.

Ve druhé studii byl algoritmus ukázán na snímku z videa a požádal o předpověď, jaký objekt se objeví o pět sekund později. Například, když někdo otevře mikrovlnku, může to naznačovat budoucí přítomnost hrnečku na kávu. Algoritmus předpovídal objekt v rámci rámce o 30 procent přesněji než základní opatření, ačkoli vědci varují, že má stále pouze průměrnou přesnost 11 procent.

Je třeba poznamenat, že i lidé dělají chyby v těchto úkolech: například lidské subjekty dokázaly správně předpovídat akci pouze 71% času.

"Existuje spousta jemnosti pro pochopení a prognózu lidských interakcí, " říká Vondrick. "Doufáme, že se nám podaří vyřešit tento příklad, abychom mohli brzy předvídat ještě složitější úkoly."

Těšit se

Zatímco algoritmy nejsou dosud přesné pro praktické aplikace, Vondrick říká, že budoucí verze by mohly být použity pro všechno od robotů, kteří vyvíjejí lepší akční plány do bezpečnostních kamer, které mohou upozorňovat na osoby, které reagují na nouzové situace, když někdo padl nebo byl zraněn.

"Jsem nadšená, že vidím, jak lépe se tyto algoritmy dostanou, když jim můžeme nabídnout videozáznamy o celkovém životě, " říká Vondrick. "Mohli bychom vidět nějaké významné vylepšení, které by nás přiblížily k použití předvídatelného vize v reálných situacích."

Práce byla podpořena grantem z Národní vědecké nadace spolu s oceněním fakulty ve výzkumu Google pro společnost Torralba a stipendium Google PhD pro společnost Vondrick.

menu
menu