Skip to content
This repository was archived by the owner on Nov 27, 2025. It is now read-only.

phfarath/Google-BigQueryAI

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Projeto BigQuery AI - Hackathon Google

Descrição do Projeto

Este projeto foi desenvolvido para o hackathon do Google, com o objetivo de demonstrar o uso avançado do BigQuery AI para processar e analisar dados não estruturados de múltiplas fontes (PDFs, imagens, áudios, logs de chat). A solução combina três abordagens principais:

  1. AI Architect (Generative AI) - Processamento e geração de conteúdo com modelos de linguagem
  2. Semantic Detective (Vector Search) - Busca semântica usando embeddings vetoriais
  3. Multimodal Pioneer (Object Tables) - Indexação e análise de dados multimodais

Estrutura do Projeto

├── program/
│   ├── data/              # Dados de exemplo e testes
│   ├── notebooks/         # Notebooks de implementação
│   │   └── main_implementation.ipynb  # Notebook principal
│   └── bq-sql/            # Scripts SQL estruturados
│       ├── 00_schemas.sql                 # Criação de schemas e controle
│       ├── 01_object_tables.sql           # Ingestão multimodal
│       ├── 02_extract.sql                 # Extração de texto
│       ├── 03_chunking.sql                # Chunking inteligente
│       ├── 04_embeddings.sql              # Geração de embeddings
│       ├── 05_search_proc.sql             # Busca semântica
│       ├── 06_generate_actions.sql        # Sumarização estruturada
│       ├── 07_sched_queries.sql           # Operações programadas
│       ├── 08_metrics_views.sql           # Métricas e monitoramento
│       ├── 09_evals_guardrails.sql        # Avaliação e guardrails
│       └── 10_demo_script.sql             # Demonstração completa
├── samples/               # Exemplos do Google Cloud
├── evaluation/            # Critérios de avaliação
├── README.md             # Documentação principal
├── implantação.md        # Instruções de implantação
└── Plano.md              # Planejamento do projeto

Componentes Principais

1. Processamento de Dados Textuais

  • Sumarização automática de documentos PDF
  • Análise de sentimentos em logs de chat
  • Classificação automática de conteúdo
  • Extração de palavras-chave e temas

2. Processamento de Dados Multimodais

  • Geração de embeddings para imagens e áudios
  • Análise combinada de texto e conteúdo visual
  • Indexação de múltiplos formatos de arquivo
  • Busca cruzada entre diferentes tipos de mídia

3. Busca Semântica

  • Criação de índices vetoriais para busca eficiente
  • Consultas em linguagem natural
  • Ranking de resultados por relevância semântica
  • Agrupamento de conteúdo relacionado

4. Geração de Insights

  • Relatórios executivos automatizados
  • Detecção de padrões e tendências
  • Métricas de impacto e performance
  • Recomendações baseadas em dados

Tecnologias Utilizadas

  • Google Cloud Platform

    • BigQuery (principal plataforma de análise)
    • Vertex AI (modelos de linguagem e embeddings)
    • Cloud Storage (armazenamento de arquivos)
  • BigQuery AI Functions

    • AI.GENERATE / AI.GENERATE_TABLE
    • ML.GENERATE_EMBEDDING
    • VECTOR_SEARCH
    • OBJECT_REF e Object Tables

Pré-requisitos

  • Conta no Google Cloud Platform
  • Projeto GCP configurado
  • APIs necessárias ativadas:
    • BigQuery API
    • Vertex AI API
    • Cloud Storage API
    • BigQuery Connection API

Instruções de Uso

Configuração Inicial

  1. Configure o ambiente GCP seguindo as instruções em implantação.md
  2. Ative as APIs necessárias:
    • BigQuery API
    • Vertex AI API
    • Cloud Storage API
    • BigQuery Connection API

Execução do Pipeline

Opção 1: Script de Demonstração Completa (Recomendado)

# Execute o script completo em program/bq-sql/10_demo_script.sql
# Este script demonstra todo o pipeline automaticamente

Opção 2: Execução Passo a Passo

Execute os scripts SQL em ordem:

  1. Configuração: program/bq-sql/00_schemas.sql
  2. Ingestão: program/bq-sql/01_object_tables.sql
  3. Extração: program/bq-sql/02_extract.sql
  4. Chunking: program/bq-sql/03_chunking.sql
  5. Embeddings: program/bq-sql/04_embeddings.sql
  6. Busca: program/bq-sql/05_search_proc.sql
  7. Sumarização: program/bq-sql/06_generate_actions.sql

Opção 3: Notebook Interativo

# Use o notebook program/notebooks/main_implementation.ipynb
# para uma experiência interativa com explicações detalhadas

Exemplos de Uso

Busca Semântica

-- Buscar problemas similares
CALL `seu-projeto.ei_ops.search_similar`('impressora offline', 5);

Geração de Resumos

-- Gerar resumo estruturado
CALL `seu-projeto.ei_ops.search_and_summarize`('problema de rede', 5, GENERATE_UUID());

Monitoramento

-- Ver métricas de performance
SELECT * FROM `seu-projeto.ei_ops.v_latency`;

-- Ver custos
SELECT * FROM `seu-projeto.ei_ops.v_job_costs`;

Configuração de Produção

  1. Scheduled Queries: Configure as queries programadas usando program/bq-sql/07_sched_queries.sql
  2. Monitoramento: Configure alertas baseados nas views em program/bq-sql/08_metrics_views.sql
  3. Guardrails: Implemente validações usando program/bq-sql/09_evals_guardrails.sql

Critérios de Avaliação

Este projeto atende a todos os critérios do hackathon:

  • Implementação Técnica (35%): Uso avançado do BigQuery AI
  • Inovação/Criatividade (25%): Solução abrangente para dados não estruturados
  • Demo/Apresentação (20%): Notebooks e documentação clara
  • Artefatos (20%): Código público e documentação completa

Recursos Adicionais

Contribuindo

  1. Faça um fork do projeto
  2. Crie uma branch para sua feature (git checkout -b feature/AmazingFeature)
  3. Commit suas mudanças (git commit -m 'Add some AmazingFeature')
  4. Push para a branch (git push origin feature/AmazingFeature)
  5. Abra um Pull Request

Licença

Este projeto está licenciado sob a licença MIT - veja o arquivo LICENSE para detalhes.

Contato

Para mais informações, entre em contato através do GitHub.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors