Hacia el buscador visual, porque somos visuales

Internet nos ha cambiado la vida, pero más aun lo han hecho los buscadores; desde Google o Yahoo, pasando por los específicos para vuelos, hoteles, etc. hasta los recientes con búsquedas móviles y por geolocalización. La expresión común y, sobretodo, el hábito de “búscalo en Google / Google it” forma ya parte de nuestra vida diaria (Google recibe +500M de nuevas búsquedas al día). Todos ellos se basan en la búsqueda de información textual sobre grandes cantidades de datos semánticos volcados y disponibles en la web. Porque la forma más habitual en la que hemos transmitido información y nos hemos comunicado por Internet, desde sus orígenes, ha sido a través de ordenadores, siempre dotados de teclados en los que poder escribir. También, y como consecuencia, porque la mayoría de la información disponible online era fundamentalmente textual. Sólo una parte minoritaria era visual (imágenes, fotografías, vídeos), por lo que era natural adaptarla a lo textual, describiéndola manualmente mediante etiquetas de metadatos o “tags”.

Sin embargo, a raíz de la aparición de los dispositivos móviles y el uso que les damos (el 94% del uso de un Smartphone es haciendo fotos), la información que volcamos en Internet ha dado un giro lógico en su evolución y es cada vez más visual. Puede comprobarse dicha tendencia con la aparición de nuevas redes sociales como Pinterest, Instagram, SnapChat o el crecimiento de los canales como YouTube. Cabe pensar pues que, dado que la información visual es cada vez mayor y tiene más protagonismo, las etiquetas empleadas hasta ahora se queden cortas en su definición. Porque, ¿qué pasa cuando un vídeo, etiquetado manualmente, por ejemplo con las palabras “amigos”, “playa”, “verano”, incluye información visual adicional sobre marcas, lugares, productos e incluso personas concretas? ¿No resulta esta descripción de etiquetado manual textual, insuficiente, imprecisa, subjetiva e incompleta?

1

Asimismo, en ecommerce y como ya se señalaba en un post anterior de Montse Labiaga, la foto es el producto, pues es lo que mejor acerca al consumidor la realidad del objeto físico a adquirir, a la vez que es lo que más le impulsa y atrae, de forma subjetiva y emocional, hacia ello. Porque el ser humano es un animal instintivamente visual. Nuestros orígenes, recuerdos, imaginación y concepción del mundo están casi en su totalidad basados en imágenes. Y porque, además, en un mundo global como el actual, la información visual es el idioma universal, tanto a nivel geográfico, cultural, como por edad o cultura. Un niño pequeño aprende a reconocer las cosas visualmente mucho antes que por su descripción con palabras.

Cabe pensar pues que, si por un lado, la tecnología actual está ya preparada para interpretar y reconocer toda esta información visual digital por su propio contenido visual completo, el mismo que nuestro cerebro es capaz de ver, entender y asimilar, y que, por otro lado, la sociedad y el mercado lo están igualmente, sea el momento adecuado de la aparición del buscador visual global. Un buscador capaz de organizar toda esta información visual de forma precisa, rápida, completa y genérica, y que sea capaz de adaptarse a su evolución en el tiempo. Aquél que además nos generará ese nuevo hábito natural de buscar por imágenes o haciendo fotos, y se incorpore en nuestras tareas cotidianas diarias.

¿Qué debe cumplir entonces dicho buscador para ser el adecuado? Un buen buscador visual, al igual que los buenos buscadores textuales, debe realizar sus búsquedas mediante un algoritmo matemático complejo, compuesto de una parte objetiva y otra subjetiva.

2

      • La parte objetiva debe medir, interpretar y describir la información visual objetiva y de forma aislada. Y lo debe hacer de forma precisa, completa y exacta, detallando toda aquella información relevante o no relevante incluida y siendo además independiente de las condiciones de captura. También ha de ser flexible, genérica, escalable y evolutiva en el tiempo. Es decir, que pueda reconocer todo tipo de información visual sin necesidad de etiquetarla o clasificarla en un modelo o clase definido o previamente conocido, sin necesidad de ningún aprendizaje, entrenamiento o adaptación particular sobre el mismo ni bajo unas condiciones acotadas específicas. Sí debe hacerlo de forma descriptiva, flexible y genérica, aplicable a cualquier imagen o contenido visual existente hoy o mañana. Esto es clave porque nuestro mundo es cambiante, creciente y evolutivo y, por tanto, la información visual que compartamos también lo será.
      • La parte subjetiva ponderará y adaptará la parte objetiva a lo que para nosotros los humanos es subjetivamente más relevante o popular en el tiempo (algo similar al concepto de Page Rank), midiendo además la inter-relación de unos datos visuales con otros. Esta parte, en cambio, sí aprenderá de nuestra forma subjetiva de percibir e interpretar el mundo, de lo que además es más relevante para nosotros y de cómo con el tiempo irá cambiando.

Así pues, el buscador visual que estamos construyendo en Shot & Shop, lanzado en septiembre de 2013 en el sector de la moda en forma de app y como simple prueba de concepto inicial, es sólo la punta del iceberg de lo que está por llegar. Bajo las premisas descritas, perseguimos crear el buscador visual que pueda cumplirlas y superarlas. Un largo camino aún por recorrer, pero con pasos firmes y seguros hasta alcanzar nuestro objetivo: el buscador visual global del futuro, para todo nuestro mundo visual, porque somos visuales. Aquí podéis ver nuestro spot.

Y para concluir, sabiendo que las búsquedas textuales generan a día de hoy unos ratios de conversión en ventas del 7%, ¿de cuánto será la conversión con búsquedas visuales, conociendo además su poder impulsivo, instintivo y global? Esperamos estar ahí pronto para contestarlo…

 

Sira Pérez de la Coba
Ingeniero de Telecomunicación y experta en visión artificial y análisis estadístico, ha trabajado para Indra y Telvent. CEO y Fundadora de Shot & Shop, una tecnología revolucionaria, que reconoce objetos de manera escalable y precisa.
Sira Pérez de la Coba
Sira Pérez de la Coba
Sira Pérez de la Coba

Latest posts by Sira Pérez de la Coba (see all)

5 Comentarios

  1. ¿Puede ser que Amazon esté trabajando en algo similar? En PuroMarketing hablan sobre “Amazon Flow” y me ha recordado a shot&shop: http://www.puromarketing.com/m.php?id=19196 (el título nombra los códigos QR pero el artículo no)

    • Si, Amazon está trabajando sobre la misma idea pero la tecnología se basa en etiquetado y “pattern maching”. Esa tecnología tiene muchas más limitaciones que la que ha desarrollado Shot & Shop.

  2. Josep, efectivamente, y como bien indica Nacho, nuestro gran diferencial es la escalabilidad total de la tecnología que permite reconocer todo tipo de productos, en volumen y categorías y de una forma flexible e invariante (el objeto puede estar girado, curvado, y con cierto grado de deformación o incompleto), encontrándolo igualmente Shot & Shop. Nuestra tecnología no utiliza métodos de machine learning ni pattern matching, permitiendo así su total escalabilidad.

  3. El reconocimiento de imágenes junto con la realidad aumentada darán mucho de qué hablar y cambiarán el futuro. Tecnología como la de Aurasma o apps como la de Blippar mezclado con los metabuscadores y comparadores harán que el ecommerce cambie radicalmente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

*

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>