Umelá inteligencia Microsoftu sa vyrovnala človeku

Radoslav Kubica
10/17/2020 - 14:06

Spoločnosť Microsoft vytvorila systém umelej inteligencie (AI) na vytváranie titulkov k obrázkom, ktorý ich dokáže opísať presne tak, ako by ho popísal človek. Niekedy dokonca lepšie.

STARÝ SYSTÉM: Muž v modrom tričkuNOVÝ SYSTÉM: Niekoľko ľudí nosiacich chirurgické rúška

Technologická spoločnosť so sídlom v Redmonde uviedla, že nový systém na vytváranie titulkov k obrázkom je dvakrát lepší ako ten, ktorý sa od roku 2015 používa v produktoch a službách spoločnosti Microsoft. Tento nový systém je k dispozícii v aplikácii Seeing AI, aplikácii Microsoft pre nevidiacich a zrakovo postihnutých používateľov, a začne sa objavovať neskôr v tomto roku v programoch Microsoft Word, Outlook a PowerPoint. Tento systém je prístupný aj vývojárom prostredníctvom cloudovej platformy Microsoft Azure.

STARÝ SYSTÉM: Muž jazdiaci na skejtborde po boku budovyNOVÝ SYSTÉM: Hráč bejzbalu chytajúci loptu

Táto funkcia dokáže vygenerovať alternatívny text, popis fotografie na webovej stránke alebo v dokumente pre ľudí, ktorí majú problémy so zrakom alebo nevidia vôbec. Aplikáciou Seeing AI (Talking camera for the Blind) sa Microsoft snaží týmto ľuďom pomôcť. Pomocou tohto systému by aplikácia mala presvedčivo a presne opísať fotografie vrátane fotografií z aplikácií pre sociálne médiá.

STARÝ SYSTÉM: Osoba sediaca pri západe slnkaNOVÝ SYSTÉM: Táborák na pláži

Spoločnosť Microsoft predcvičila tento model AI spárovaním obrázkov s kľúčovými slovami, ktoré boli špecifické pre objekt na obrázku. Použitím kľúčových slov namiesto úplných titulkov bolo možné do modelu vložiť väčšie množstvo údajov. Predtrénovaný model bol následne vyladený na datasete obrázkov s titulkami.

Na benchmarku nocaps (benchmark, ktorý hodnotí AI systémy na generovanie titulkov pre objekty na obrázkoch) tento systém vytvoril titulky, ktoré boli niekedy dokonca popisnejšie a presnejšie ako titulky k rovnakým obrázkom, ktoré napísali ľudia (podľa výsledkov výskumnej práce VIVO: Surpassing Human Performance in Novel Object Captioning with Visual Vocabulary Pre-Training).

STARÝ SYSTÉM: Muž stojaci na vrchole horyNOVÝ SYSTÉM: Muž nesúci surf

STARÝ SYSTÉM: Detailný záber rastlinyNOVÝ SYSTÉM: Detailný záber pšenice v poli

STARÝ SYSTÉM: Osoba sediaca za stolom používajúca notebookNOVÝ SYSTÉM: Osoba používajúca mikroskop

STARÝ SYSTÉM: Detailný záber osoby robiacej párky v rožku na doske na krájanieNOVÝ SYSTÉM: Osoba robiaca chlieb

Zdroje: The AI Blog - Microsoft, arXiv.org e-Print archive

Tagy umelá inteligencia Microsoft AI titulky obrázky človek popis technológie systém produkty sluzby Aplikácia Seeing AI nevidiaci zrakovo postihnutí používatelia programy Microsoft Word Microsoft Outlook Microsoft PowerPoint Microsoft Office web vývoj vývojári cloud platforma Microsoft Azure funkcia alternatívny text text fotografie dokumenty ľudia zrak sociálne médiá model kľúčové slová objekty údaje ladenie dataset benchmark nocaps výsledky výskum práca muž tričko chirurgia rúška skejtbord budova hra bejzbal lopta osoba západ slnka Slnko táborák pláž vrchol hora surf detail detaily rastlina pšenica pole stôl Notebook mikroskop párky rožky párok v rožku doska doska na krájanie chlieb

Komentáre (2)

PCfans

Sat, 10/17/2020 - 20:25

Bombasticky titulok na sposob bulvaru.Ja to vidim tak ze nejaka appka vie popisat obrazok z naucenej databaze,a to je vsetko co vie.Keby vedela este povedat operatorovy ze ma rozopnuty rozporok na nohaviciach,a podla okolnosti sa tomu zasmiat,alebo mu to len taktne pripomenut.A este mu povedat ze to pivo co si vcera dal nebol Budweiser ale anglicke pivo Buxton tak by to stalo za pozornost.

Pjetro de

Mon, 10/19/2020 - 21:02

Principialne ide o to, ze to nebezi vyuzitim klasickych algoritmov ale vyuzitim AI a mozno nie na konvencnom hardveri, ale napr. na TPU (Tensor Processing Unit = vlastne specializovane procesory pre AI, kt. si sam vyraba napr. Google). Tu nejde o nic viac a o nic menej. Tvoja poznamka je sice pravdiva, ale absolutne nelogicka. AI by okrem porozumenaia kontextu v najkomplesnejsich meritkach ale musela byt integrovana do entity (robota/sondy), ktora by mala kontakt s fyzikalnou realizou pomocou imitacie ludskych zmyslov a bola by vcera v tej krcme.

Toto je naproti tomu iba (na milionoch obrazkoch) natrenovana neuronova siet (mozno beziaca na specifickom hardveri) schopna obstojne analyzovat obrazky podla nasich predstav. Takze ozaj nerozumiem co by sme mali akoze od takej neuronovej siete cakat.

Umelá inteligencia Microsoftu sa vyrovnala človeku

Komentáre (2)

PCfans

Pjetro de

Add new comment

Endorfy Aquarius 8000 Corona – vstup medzi elitu

Prehľad cien 25. týždeň

Noctua NL-LC1 – konečne AiO od Noctua, alebo?

Secretlab letný výpredaj 2026!

Rusi prichádzajú o obľúbené appky, Apple bez varovania zasiahol a Kremeľ reaguje ostrými slovami

Arch Linux čelí novej vlne útokov! Ruský spam sa dostal priamo do komunitného repozitára AUR!