Artefact Research Center
Preenchendo a lacuna entre a academia e os aplicativos do setor.
Pesquisa sobre modelos mais transparentes e éticos para estimular a adoção do AI business.
Exemplos de vieses do site AI
- AppleCard concede hipotecas com base em critérios racistas
- Lensa AI sexualiza selfies de mulheres
- Classificação de imagens racistas do Facebook com afro-americanos como macacos
- O chatbot da Microsoft no Twitter está se tornando nazista, sexista e agressivo
- ChatGPT que escreve um código afirmando que bons cientistas são homens brancos
Desafio atual
AI são precisos e fáceis de implementar em muitos casos de uso, mas permanecem incontroláveis devido a caixas pretas e questões éticas.
A missão do Artefact Research Center .
Um ecossistema completo que preenche a lacuna entre
pesquisa fundamental e aplicações industriais tangíveis.
Emmanuel MALHERBE
Chefe de Pesquisa
Área de pesquisa: Aprendizado profundo, aprendizado de máquina
Começando com um doutorado em modelos de PNL adaptados ao recrutamento eletrônico, Emmanuel sempre buscou um equilíbrio eficiente entre pesquisa pura e aplicações impactantes. Sua experiência em pesquisa inclui previsão de séries temporais 5G para a Huawei Technologies e modelos de visão computacional para clientes de cabeleireiro e maquiagem na L'Oréal. Antes de ingressar na Artefact, ele trabalhou em Xangai como chefe de pesquisa da AI para a L'Oréal Ásia. Hoje, seu cargo na Artefact é uma oportunidade perfeita e um ambiente ideal para preencher a lacuna entre a academia e o setor e para promover sua pesquisa no mundo real e, ao mesmo tempo, impactar as aplicações industriais.
Um ecossistema completo que preenche a lacuna entre a pesquisa fundamental e os aplicativos tangíveis do setor.
Campos de pesquisa transversais
Com nosso posicionamento exclusivo, nosso objetivo é abordar os desafios gerais de AI, seja na modelagem estatística ou na pesquisa de gestão.
Essas questões são transversais a todas as nossas disciplinas e alimentam nossa pesquisa.
Assuntos
Trabalhamos em vários tópicos de doutorado na interseção de casos de uso industrial e limitações do estado da arte.
Para cada assunto, trabalhamos em colaboração com professores universitários e temos acesso ao site data industrial que nos permite abordar as principais áreas de pesquisa em um determinado cenário do mundo real.
1 - Previsão e preços
Modelar séries temporais como um todo com um modelo de previsão controlável e multivariado. Essa modelagem nos permitirá abordar o planejamento de preços e promoções, encontrando os parâmetros ideais que aumentam a previsão de vendas. Com essa abordagem holística, pretendemos capturar a canibalização e a complementaridade entre os produtos. Isso nos permitirá controlar a previsão com garantias de que as previsões sejam mantidas consistentes.
2 - Pontuação explicável e controlável
Uma família de modelos de aprendizado de máquina amplamente utilizada é baseada em árvores de decisão: florestas aleatórias, boosting. Embora sua precisão seja frequentemente a mais avançada, esses modelos sofrem de uma sensação de caixa preta, oferecendo controle limitado ao usuário. Nosso objetivo é aumentar sua explicabilidade e transparência, geralmente melhorando a estimativa dos valores de SHAP no caso de conjuntos de dados desequilibrados. Também pretendemos fornecer algumas garantias para esses modelos, por exemplo, para amostras fora do treinamento ou permitindo melhores restrições monotônicas.
3 - Otimização do sortimento
O sortimento é um problema comercial importante para os varejistas que surge ao selecionar o conjunto de produtos a serem vendidos nas lojas. Usando grandes conjuntos de dados industriais e redes neurais, nosso objetivo é criar modelos mais robustos e interpretáveis que capturem melhor a escolha do cliente diante de uma variedade de produtos. Lidar com a canibalização e as complementaridades entre os produtos, bem como compreender melhor os grupos de clientes, é fundamental para encontrar um conjunto mais ideal de produtos em uma loja.
4 - AI Adoção em empresas
O desafio de uma melhor adoção do AI nas empresas é, por um lado, aprimorar os modelos do AI e, por outro, entender os aspectos humanos e organizacionais. No cruzamento da pesquisa de gestão qualitativa e da pesquisa social, este eixo procura explorar onde as empresas enfrentam dificuldades ao adotar as ferramentas AI . As estruturas existentes sobre a adoção de inovações não são totalmente adequadas para inovações de aprendizado de máquina, pois há diferenças típicas de regulamentação, treinamento de pessoas ou vieses quando se trata de AI, e mais ainda com AI geradores.
5 - Data-driven sustainability
O projeto mobilizará métodos de pesquisa qualitativos e quantitativos e abordará duas questões-chave: Como as empresas podem medir com eficácia o desempenho da sustentabilidade social e ambiental? Por que as medidas de sustentabilidade muitas vezes não provocam mudanças significativas nas práticas organizacionais?
Por um lado, o projeto visa explorar métricas orientadas pelo data e identificar indicadores para alinhar os procedimentos organizacionais aos objetivos de sustentabilidade social e ambiental. Por outro lado, o projeto se concentrará na transformação dessas medidas de sustentabilidade em ações concretas dentro das empresas.
6 - Viés na visão computacional
Quando um modelo faz uma previsão com base em uma imagem, por exemplo, mostrando um rosto, ele tem acesso a informações confidenciais, como etnia, gênero ou idade, que podem influenciar seu raciocínio. Nosso objetivo é desenvolver uma estrutura para medir matematicamente esse viés e propor metodologias para reduzir esse viés durante o treinamento do modelo. Além disso, nossa abordagem detectaria estatisticamente zonas de forte viés para explicar, entender e controlar onde esses modelos reforçam o viés presente no site data.
7 - LLM para recuperação de informações
Uma das principais aplicações dos LLMs é quando associados a um corpus de documentos, que representam algum conhecimento ou informação industrial. Nesse caso, há uma etapa de recuperação de informações, para a qual os LLMs apresentam algumas limitações, como o tamanho do texto de entrada, que é muito pequeno para indexar documentos. Da mesma forma, o efeito de alucinação também pode ocorrer na resposta final, que pretendemos detectar usando o documento recuperado e modelar a incerteza no momento da inferência.
Artefactpesquisadores de meio período da empresa
Além da nossa equipe dedicada à pesquisa, temos vários colaboradores que dedicam algum tempo à pesquisa científica e à publicação de artigos. O fato de trabalharem também como consultores os inspira com problemas do mundo real encontrados por nossos clientes.
Publicações
Artigos de blog da mídia escritos por nossos especialistas em tecnologia.
A era do generativo AI: O que está mudando
A abundância e a diversidade de respostas ao ChatGPT e a outras IAs generativas, sejam elas céticas ou entusiasmadas, demonstram as mudanças que elas estão provocando e o impacto...
Como a Artefact conseguiu desenvolver um sistema de carreira justo e simples para engenheiros de software
No atual setor de tecnologia, dinâmico e em constante evolução, uma carreira pode parecer um caminho sinuoso em meio a uma densa floresta de oportunidades. Com a rápida...
Por que você precisa de LLMOps
Este artigo apresenta o LLMOps, um ramo especializado que mescla DevOps e MLOps para gerenciar os desafios apresentados pelos modelos de linguagem grandes (LLMs)...
Liberando o poder da LangChain Expression Language (LCEL): da prova de conceito à produção
A LangChain se tornou uma das bibliotecas Python mais usadas para interagir com LLMs em menos de um ano, mas a LangChain era principalmente uma biblioteca...
Como lidamos com a reconciliação de ID de perfil usando o Treasure Data Unification e SQL
Neste artigo, explicamos os desafios da reconciliação de IDs e demonstramos nossa abordagem para criar um ID de perfil unificado na plataforma Customer Data , especificamente...
Snowflake's Snowday '23: Snowballing into Data Science Success
Ao refletirmos sobre as percepções compartilhadas durante o evento "Snowday", realizado nos dias 1º e 2 de novembro, uma cascata de revelações empolgantes sobre o futuro da...
Como entrevistamos e contratamos engenheiros de software na Artefact
Explicamos as habilidades que estamos procurando, as diferentes etapas do processo e os compromissos que assumimos com todos os candidatos.
Codificação de características categóricas na previsão: estamos todos fazendo isso errado?
Propomos um novo método para codificar recursos categóricos especificamente adaptados para aplicativos de previsão.
Como implantamos um sistema simples de monitoramento da vida selvagem no Google Cloud
Colaboramos com a Smart Parks, uma empresa holandesa que fornece soluções avançadas de sensores para conservar a vida selvagem ameaçada...
Implementando o Stable Diffusion no Vertex AI
Este artigo fornece um guia para a implantação do modelo Stable Diffusion, um modelo popular de geração de imagens, no Google Cloud usando o Vertex AI.
Tudo o que você precisa saber para começar a usar o Vertex AI Pipelines
Apresentação de uma ferramenta que demonstra, na prática, nossa experiência com o uso do Vertex AI Pipelines em um projeto em execução na produção.
dbt coalesce 2022 recapitulação
A edição da dbt coalesce estava ocorrendo em Nova Orleans. E aprendemos uma tonelada sobre o panorama da engenharia analítica.
Controle de acesso Snowflake em escala
Snowflake | Como automatizamos o gerenciamento de uma conta com mais de 50 usuários e, ao mesmo tempo, cumprimos os padrões de governança da data
Previsão de algo que nunca aconteceu: como estimamos a rentabilidade das promoções passadas
Um guia sobre como usar a previsão contrafactual para estimar a relação custo-benefício de promoções passadas na loja no varejo.
Modelagem bayesiana de mix de mídia com limitações data
Como estimar o impacto dos canais entre Vendas e Marketing? A Media Mix Modeling é a solução, as estatísticas são o principal recurso.
Medindo o impacto de CO2eq de seu Caderno Python (Azure ML)
Depois de minha primeira história sobre otimização de código para reduzir meu tempo de computação em 90%, fiquei interessado em saber o impacto de CO2eq economizado por minha...
Um manifesto para incluir engenheiros de ML em seus projetos científicos data desde o primeiro dia
Jeffrey Kane, cientista sênior da Data , explica por que o engenheiro de ML deve estar em seus projetos científicos da data desde o primeiro dia.
Como será o futuro da engenharia data ?
O campo e o futuro da engenharia de data estão evoluindo rapidamente. Descubra as três principais tendências que vejo se tornarem proeminentes nos próximos anos.
O Profeta do Facebook é adequado para fazer boas previsões em um projeto do mundo real?
Este guia o ajudará a descobrir se o Profeta do Facebook é apropriado ou não para seu projeto de previsão.
Filtros de cadeia de caracteres no pandas: você está fazendo isso errado
Os filtros de cadeia de caracteres no Pandas são algo que você deve evitar, pois o operador scalar_compare leva a gargalos de desempenho.
Data Desafios de ML para 2022
Principais tendências de 2021 data e ML... e o que elas significam para 2022
Como comparar rapidamente dois conjuntos de dados usando uma consulta SQL genérica e poderosa
Um guia passo-a-passo para facilitar a comparação de conjuntos de dados através de um modelo de linguagem de consulta estruturada pronto para uso
Pontuação da propensão do cliente usando modelos de aprendizado de máquina no Google Analytics Data
Um mergulho profundo em como criamos modelos de aprendizado de máquina personalizados de última geração para estimar a propensão do cliente a comprar um produto usando o Google Analytics...