Principal Innovació Google AI ara permet als usuaris traduir instantàniament text en 27 idiomes amb càmeres de telèfon

Google AI ara permet als usuaris traduir instantàniament text en 27 idiomes amb càmeres de telèfon

Quina Pel·Lícula Per Veure?
 
(Gif: Google)

(Gif: Google)



Gràcies a la intel·ligència artificial, viatjar a l’estranger mai ha estat tan senzill.

L'aplicació Google Translate permet als usuaris traduir text a l'instant. A l’aplicació, només heu d’orientar la càmera cap al text que vulgueu traduir i veureu que es transforma en el vostre idioma desitjat en directe, davant dels vostres ulls, sense connexió a Internet ni dades del telèfon mòbil. Aquesta útil funció està disponible des de fa temps, però només havia estat compatible amb set idiomes. Ara , gràcies a l'aprenentatge automàtic, Google ha actualitzat l'aplicació per traduir instantàniament 27 idiomes.

Així doncs, la propera vegada que estigueu a Praga i no pugueu llegir cap menú, ja tenim l'esquena, va escriure Otavio Good, enginyer de programari de Google, sobre la investigació de l'empresa. bloc .

Google també acaba d’utilitzar la IA per reduir a la meitat els seus errors de reconeixement de veu.

A partir d’avui, a més de traduir entre anglès, francès, alemany, italià, portuguès, rus i espanyol, també es poden traduir els 20 idiomes següents en temps real: búlgar, català, croat, txec, danès, holandès, filipí, Finès, hongarès, indonesi, lituà, noruec, polonès, romanès, eslovac, suec, turc i ucraïnès. I si decidiu fer una fotografia en lloc de veure traduir el text en directe, s’admeten un total de 37 idiomes.

Llavors, com va poder Google augmentar el nombre d’idiomes disponibles? Primer van adquirir Word Lens, antigament una aplicació de traducció de realitat augmentada, i van utilitzar l'aprenentatge automàtic i xarxes neuronals convolucionals per millorar les capacitats de l'aplicació. Els avenços en el reconeixement d’imatges van ser claus.

Fa cinc anys, si donaves a un ordinador la imatge d’un gat o d’un gos, tenia problemes per saber quin era quin. Gràcies a les xarxes neuronals convolucionals, no només els ordinadors poden diferenciar els gats i els gossos, fins i tot poden reconèixer diferents races de gossos, va dir Good. Sí, són bons per a alguna cosa més art trippy —Si traduïu un menú estranger o signeu amb l’última versió de l’aplicació Google Translate, ara utilitzeu una xarxa neuronal profunda.

Pas a pas

Primer , Traduir ha d’eliminar el desordre de fons i localitzar el text. Quan localitza taques de píxels del mateix color, determina que són lletres. I quan aquests blobs són propers els uns dels altres, entén que és una línia contínua que cal llegir.

Pròxim, l'aplicació ha de reconèixer què és cada lletra individual. Aquí és on entra l’aprenentatge profund.

Utilitzem una xarxa neuronal convolucional, la formem en lletres i no lletres perquè pugui aprendre a l’aspecte de les diferents lletres.

Els investigadors van haver d’entrenar el programari utilitzant no només lletres d’aspecte net, sinó també brutes. Les cartes del món real estan marcades per reflexos, brutícia, taques i tota mena de rareses, va escriure el senyor Good. Per tant, vam construir el nostre generador de cartes per crear tot tipus de brutícia falsa per imitar de manera convincent el soroll del món real: falsos reflexos, falses taques, falses rareses al voltant. Alguns dels

Algunes de les lletres brutes que s’utilitzen per a l’entrenament. (Foto: Google)








El tercer step és buscar les lletres reconegudes en un diccionari per obtenir les traduccions. I per a un intent addicional de precisió, les cerques de diccionaris són aproximades en cas que una S no es llegeixi com a 5.

Per últim, el text traduït es representa a la part superior de l'original amb el mateix estil.

Ho podem fer perquè ja hem trobat i llegit les lletres de la imatge, de manera que sabem exactament on són. Podem mirar els colors que envolten les lletres i utilitzar-les per esborrar les lletres originals. I després podem dibuixar la traducció a la part superior amb el color original de primer pla, segons diu l’entrada del bloc.

Per tal de ser el més eficient possible i permetre que tots aquests passos es completin en temps real sense connexió a Internet ni de dades, l'equip de Google va desenvolupar una xarxa neuronal molt petita amb un límit superior a la densitat d'informació que pot gestionar. Com que generaven les seves pròpies dades d’entrenament, era important incloure les dades adequades, però res més, de manera que la xarxa neuronal no utilitza massa la seva densitat d’informació en coses poc importants. Un exemple seria com ha de reconèixer una lletra amb una rotació lleugera, però no massa.

Al final, els usuaris es queden amb 20 idiomes més però amb la mateixa velocitat ràpida.

VEURE TAMBÉ: l’equip d’IA de Google ens ha donat la baixa en la seva investigació d’aprenentatge automàtic

Articles Que Us Agraden :