Spoločnosť Microsoft vytvorila systém umelej inteligencie (AI) na vytváranie titulkov k obrázkom, ktorý ich dokáže opísať presne tak, ako by ho popísal človek. Niekedy dokonca lepšie.
STARÝ SYSTÉM: Muž v modrom tričkuNOVÝ SYSTÉM: Niekoľko ľudí nosiacich chirurgické rúška
Technologická spoločnosť so sídlom v Redmonde uviedla, že nový systém na vytváranie titulkov k obrázkom je dvakrát lepší ako ten, ktorý sa od roku 2015 používa v produktoch a službách spoločnosti Microsoft. Tento nový systém je k dispozícii v aplikácii Seeing AI, aplikácii Microsoft pre nevidiacich a zrakovo postihnutých používateľov, a začne sa objavovať neskôr v tomto roku v programoch Microsoft Word, Outlook a PowerPoint. Tento systém je prístupný aj vývojárom prostredníctvom cloudovej platformy Microsoft Azure.
STARÝ SYSTÉM: Muž jazdiaci na skejtborde po boku budovyNOVÝ SYSTÉM: Hráč bejzbalu chytajúci loptu
Táto funkcia dokáže vygenerovať alternatívny text, popis fotografie na webovej stránke alebo v dokumente pre ľudí, ktorí majú problémy so zrakom alebo nevidia vôbec. Aplikáciou Seeing AI (Talking camera for the Blind) sa Microsoft snaží týmto ľuďom pomôcť. Pomocou tohto systému by aplikácia mala presvedčivo a presne opísať fotografie vrátane fotografií z aplikácií pre sociálne médiá.
STARÝ SYSTÉM: Osoba sediaca pri západe slnkaNOVÝ SYSTÉM: Táborák na pláži
Spoločnosť Microsoft predcvičila tento model AI spárovaním obrázkov s kľúčovými slovami, ktoré boli špecifické pre objekt na obrázku. Použitím kľúčových slov namiesto úplných titulkov bolo možné do modelu vložiť väčšie množstvo údajov. Predtrénovaný model bol následne vyladený na datasete obrázkov s titulkami.
Na benchmarku nocaps (benchmark, ktorý hodnotí AI systémy na generovanie titulkov pre objekty na obrázkoch) tento systém vytvoril titulky, ktoré boli niekedy dokonca popisnejšie a presnejšie ako titulky k rovnakým obrázkom, ktoré napísali ľudia (podľa výsledkov výskumnej práce VIVO: Surpassing Human Performance in Novel Object Captioning with Visual Vocabulary Pre-Training).
STARÝ SYSTÉM: Muž stojaci na vrchole horyNOVÝ SYSTÉM: Muž nesúci surf
STARÝ SYSTÉM: Detailný záber rastlinyNOVÝ SYSTÉM: Detailný záber pšenice v poli
STARÝ SYSTÉM: Osoba sediaca za stolom používajúca notebookNOVÝ SYSTÉM: Osoba používajúca mikroskop
STARÝ SYSTÉM: Detailný záber osoby robiacej párky v rožku na doske na krájanieNOVÝ SYSTÉM: Osoba robiaca chlieb
PCfans
Bombasticky titulok na sposob bulvaru.Ja to vidim tak ze nejaka appka vie popisat obrazok z naucenej databaze,a to je vsetko co vie.Keby vedela este povedat operatorovy ze ma rozopnuty rozporok na nohaviciach,a podla okolnosti sa tomu zasmiat,alebo mu to len taktne pripomenut.A este mu povedat ze to pivo co si vcera dal nebol Budweiser ale anglicke pivo Buxton tak by to stalo za pozornost.
Pjetro de
Principialne ide o to, ze to nebezi vyuzitim klasickych algoritmov ale vyuzitim AI a mozno nie na konvencnom hardveri, ale napr. na TPU (Tensor Processing Unit = vlastne specializovane procesory pre AI, kt. si sam vyraba napr. Google). Tu nejde o nic viac a o nic menej. Tvoja poznamka je sice pravdiva, ale absolutne nelogicka. AI by okrem porozumenaia kontextu v najkomplesnejsich meritkach ale musela byt integrovana do entity (robota/sondy), ktora by mala kontakt s fyzikalnou realizou pomocou imitacie ludskych zmyslov a bola by vcera v tej krcme.
Toto je naproti tomu iba (na milionoch obrazkoch) natrenovana neuronova siet (mozno beziaca na specifickom hardveri) schopna obstojne analyzovat obrazky podla nasich predstav. Takze ozaj nerozumiem co by sme mali akoze od takej neuronovej siete cakat.