Leitura 7Limitações deControlChartsPrint - ISE 4404. Este é o fim da pré-visualização. Inscreva-se para acessar o resto do documento. Pré-visualização de texto não formatado: ISE 4404 Controle de qualidade estatístico Notas de aula 7 Instrutor: Ran Jin Email: jran5vt. edu 1 Quais são as limitações dos gráficos de controle Xbar e RS Pense nas premissas 2 Capítulo 9 - Amostras CUSUM Gráficos de controle EWMA Para acelerar a detecção de um Pequena mudança média no processo. O gráfico Shewhart demora muito para detectar uma pequena mudança média (shiftlt1.5) usa apenas a informação sobre o processo contido no último ponto plotado e ignora qualquer informação dada por toda a seqüência de pontos não é adequado para a amostra com uma única observação O gráfico de Shewhart com outras regras de sensibilização suplementar pode aumentar a sensibilidade de detecção, mas reduzir a simplicidade ea facilidade de interpretação do gráfico de controle Shewhart e aumentar o erro de tipo I (às vezes dramaticamente). 3 Capítulo 10 Outras técnicas de controle e monitoramento de processos estatísticos univariados SPC para execução de produção curta ou pequena SPC Com dados de processo autocorrelacionados 4 Capítulo 11 Controle de qualidade multivariante Monitoramento de processo Tabela de controle de Qui-quadrado médio Carta de controle de Hotelling T2 tamanho da amostra ngt1 Tamanho da amostra n1 Interpretação de sinais fora de controle Monitoramento Processo Variância teste covariância matriz teste amostra variância generalizada 5 Mais Avançado Tópicos em design de gráfico de controle Tabela de controle ajustada por risco Monitoramento de perfil Gráfico de controle baseado em imagem Tabela de controle baseada em cluster 6 Capítulo 9 - Amostras CUSUM Gráficos de controle EWMA Para acelerar a detecção de uma pequena mudança média no processo. O gráfico Shewhart demora muito para detectar uma pequena mudança média (shiftlt1.5) usa apenas a informação sobre o processo contido no último ponto plotado e ignora qualquer informação dada por toda a seqüência de pontos não é adequado para a amostra com uma única observação O gráfico de Shewhart com outras regras de sensibilização suplementar pode aumentar a sensibilidade de detecção, mas reduzir a simplicidade ea facilidade de interpretação do gráfico de controle Shewhart e aumentar o erro de tipo I (às vezes dramaticamente) 7 Um exemplo de motivação 6 6 Considere os seguintes dados. Este processo tem um aumento médio desde a amostra 21, você vê isso? 8 6 E se Ci i (X j 1 j 10) 6 6 9 O pequeno turno médio X UCL LCL t 10 O que é CUSUM Chart O gráfico CUSUM foi proposto pela primeira vez Página (1954). Gráfico CUSUM: incorpora diretamente toda a informação na seqüência de valores de amostra ao traçar as somas cumulativas (CUSUM) dos desvios dos valores de amostra de um valor alvo i Ci (x j 0) j1 x j. A média da amostra 0: o alvo para o processo significa Ci: a soma cumulativa até e incluindo a i-ésima amostra n1: cusum poderia ser construído para observações individuais 11 Interpretação do gráfico CUSUM i 1 Ci (xj 0) (xj 0) (xi 0) Ci 1 (xi 0) j1 j1 i 0, Ci é uma caminhada aleatória com zero médio gt0, Ci é uma tendência de deriva para cima lt0, Ci é uma tendência de deriva para baixo Observação: uma tendência de Ci é uma indicação Da mudança de processo. 12 6 Usando CUSUM Ci i (X j 1 j 10) 6 6 13 Como construir um quadro de controle CUSUM Monitorar a média de um processo. Tabular (algorítmico) cusum (forma preferível) A forma V-mask de cusum Cusum pode ser construída tanto para observações individuais como para as médias de subgrupos racionais. Para a observação individual: ixixi Ci (xj 0) Ci 1 (xi 0) j1 14 Construir um quadro de controle CUSUM Tabular CUSUM Ci max0, xi (0 K) Ci1 Ci max0, (0 K) xi Ci1 C0 C0 0 Estatística C C. Um lado superior superior cusum CC: acumulam desvios de o que são maiores do que K, com ambas as quantidades reiniciadas a zero ao se tornarem negativas K: valor de referência (valor de tolerância ou folga) Frequentemente escolhido a meio caminho entre o alvo o e fora de controle Valor da média 1 que estamos interessados em detectar rapidamente 1 0 1 0 1 0 K 2 2 Regras de decisão: se C ou C excede o intervalo de decisão H (A escolha comum H5), o processo é considerado fora de controle 15 6 6 6 9 1 0 0,5 H55 2 2 Ci max0, xi (0 K) Ci1 K Ci max0, (0 K) xi Ci1 C0 C0 0 para verificar se Ci gt H ou Ci gt H 16 Procedimentos para Construção de CUSUM Select K e H Construa um lado superior e inferior cusum e representado nos dois col separado Tabela da calculadora xi (0K) e 0-K - xi Calcule os desvios acumulados C e C Contar o número de períodos consecutivos que o cusum C ou C - foram diferentes de zero, que são indicados por N e N respectivamente 17 Interpretação de CUSUM Encontre o ponto de dados em que C ou C - excede o intervalo de decisão H Se os dados fora de controle correspondem a uma causa atribuível, então determine a localização do último intervalo de dados de controle - Nout ou iiniout - N-out onde N out e N - out correspondem a N e N - no ponto de dados iout Estimar o novo processo significa Ci 0 KN out 0 K Ci N fora se Ci gt H se Ci gt H Traçar um gráfico de status CUSUM para visualização No entanto, as outras regras de sensibilização não podem ser utilizadas com segurança para o gráfico CUSUM porque C e C não são independentes. 18 Design of CUSUM Baseado em ARL O valor de referência de K e o intervalo de decisão H têm efeito sobre ARL0 e ARL1 k0.5 ( Kk): para minimizar o valor ARL1 para ARL0 fixo, escolha h (Hh): para obter o Desempenho desejado em controle ARL0 Tabelas 9-3 amp 9-4 6 ARL0 ARL1 Quadro Shewhart ARL143.96 6 19 ARL da CUSUM Classificação Siegmunds aproximação para ARL um lado ARL ou ARL - para C ou C ARL ou e 2 b 2b 1 ARL 2 2 1 0 bh 1.166 k (para ARL) k (para ARL) 0: ARL0 0: ARL1 total ARL 1 1 1 ARL ARL ARL Se 0, ARLb2 20 Padrão CUSUM Vantagem de um cusum padronizado: não depende de. Assim, muitas tabelas de cusum agora podem ter os mesmos valores de k e h Leads naturalmente para um cusum para variabilidade yi xi 0 Ci max0, yi k Ci 1 Ci max0, k yi Ci 1 C0 C0 0 21 Melhoria do CUSUM Exemplo: 0100, K3, H12, 50 valor de início de linha C 0 C 0 H 2 6 1105 Dados de controle 8 C0 C0 0 Resposta inicial rápida (FIR): set Se uma mudança ocorreu no início, ele pode detectar a mudança mais rapidamente para diminuir ARL1 Se dentro Controle no início, cusum irá cair rapidamente para zero, pouco efeito sobre o desempenho 8 22 Mais Discussão sobre o subgrupo CUSUM Rational: o cusum muitas vezes funciona melhor com n1 se ngt1, substitua xi por x i. Substituir com xn O cusum de um lado em cada direção pode ser projetado de forma diferente. O gráfico CUSUM não é tão efetivo como o gráfico Shewhart na detecção de grandes turnos combinados do procedimento cusum-Shewhart (Shewhart limita o uso 3,5) pode melhorar a capacidade de detectar turnos maiores e tem apenas Diminuiu ligeiramente ARL0 6 23 CUSUM para Monitoramento da Variabilidade do Processo Crie uma nova quantidade padronizada (Hawkins, 1981, 1993), que é sensível às mudanças de variância. A distribuição no controle de i é aproximadamente N (0,1) yi 0,822 ii N (0,1) 0,349 Si max0, ik Si1 yi xi 0 Si max0, ki Si1 A seleção de h e k e a interpretação do cusum são semelhantes a O cusum para controlar o processo significa 24 média móvel ponderada exponencialmente (EWMA) Para esquecer exponencialmente os dados passados, queremos associar mais peso aos dados mais recentes. É uma média ponderada: uma série geométrica de pesos Zi X i (1) Zi 1 Z0 0 X i 1 Zi (1) j X ij (1) i Z0 j 0 0lt1, Z00 25 Como construir um gráfico EWMA Suponha que xt (t1,2,) são variáveis aleatórias independentes, com E (xt) 0 , Var (xt) 2 Var (Zi) À medida que eu tornar-me grande: 2 Var (Zi) n 2 Nota: para 1, temos Shewhart Chart. Limites de controle de estado constante Em geral, UCL 0 L UCL 0 L (2) n LCL 0 L (2) n CL0 LCL 0 L) n (2 Nota. Diferente do livro de texto, aqui usamos as médias da amostra (ngt1) em vez disso Do que as observações individuais (n1) 26 6 8 8 8 n1 Z i X i (1) Z i 1 Z 0 0 X 1 (1) 22t i Zt UCL 0 L (2) 1 (1) (2) UCL 0 L 2 2t i LCL Z 0 L 1 (1)) 1 (LCL 0 (2)) t (2 8 27 6 6 Design do EWMA Control Chart Seleção de parâmetros: L e Afetar o desempenho ARL Menor para detectar menor mudança recomendar usar 0,050,25, especialmente 0,05, 0,10, 0,20) Geralmente L3, mas para pequenos 0,1, L2,6 2,8 6 6 ARL0 ARL1 Gráfico Shewhart ARL143,96 28 Desempenho do gráfico de controle EWMA Comparado ao gráfico Shewhart e ao gráfico CUSUM, o gráfico EWMA é Eficaz na detecção de pequenas mudanças médias como CUSUM, menos eficaz na detecção de mudança maior do que o gráfico Shewhart, mas geralmente superior ao gráfico CUSUM (especialmente se gt0.1) EWMA é muito insensível t O pressuposto de normalidade. Então, é um gráfico de controle ideal para observações individuais. Recomendação: Para combinar o gráfico Shewhart com o EWMA e usar limites de controle mais amplos (L3.25 ou 3.5) para o gráfico Shewhart 29 Exemplo Um gráfico de controle EWMA usa 0.4. Quão largos os limites estarão no gráfico de controle da barra x (em sigma-units), expressado como um múltiplo da largura dos limites EWMA de estado estacionário (em unidades sigma) 30 Gráficos de Controle Médio Mínimo Diferentes do EWMA, uso Uma média móvel não ponderada Mi (i X i-1 X i-2. X i-w1) w X Esta janela de tamanho, w, incorpora parte da memória das informações de dados anteriores, descartando os dados mais antigos e adicionando os dados mais recentes 31 Construir gráficos de controle de média móvel A média móvel pode ser escrita recursivamente como, MM (i i-1 i X) w iw w tamanho da janela, n tamanho da amostra para ela 1 Var (M) 2 Var (iw it-w1 ji-w1 UCL 0 3 nw LCL 0 - 3 nw XX 2) nw ji X No início, se iltw 0 3 ni Observações: O tamanho da janela de w e a magnitude da mudança de interesse estão inversamente relacionados. 32 6 8 8 Exemplo 8 8 UCL 0 3 n1 0 3 w LCL 0 - 3 wi 8 6 6 9 13 33 Exemplo: Detecção de deslocamento por gráfico de média móvel Suponha que o processo significa mudanças de 0 0 n para Shewhart Chart (esse valor não Mudança de amostra para amostra):) 0,0227 Pr (detecção) Pr (X gt 3 0 0 nn para gráfico de média em movimento: esse valor muda de amostra para amostra desde) Pr (detecção) Pr (M gt UCL i M 0 ni 1) (W-1) para a 1ª amostra após o deslocamento E (M) w 2ª amostra após o deslocamento ww amostra após a mudança w Exibir o documento completo Clique para editar os detalhes do documento Compartilhe este link com um amigo: Documentos mais populares para o ISE 4404 Leitura 3Inferências Sobre a qualidade Virginia Tech ISE 4404 - Primavera 2015 ISE 4404 Controle estatístico de qualidade Notas de aula 3 Instrutor: Ran Jin Email: jran5 Trabalho de casa 2 Virginia Tech ISE 4404 - Primavera 2015 ISE 4404 Primavera 2015 HOMEWORK 2 Devido a 2132015 antes da classe 1. (1pt) Duas decisões r Tarefas 4 Virginia Tech ISE 4404 - Primavera 2015 ISE 4404 Primavera 2015 HOMEWORK 4 Devido a 327 2015 antes da classe 1. (1 pt) Um processo é Lição de casa 3 Virginia Tech ISE 4404 - Primavera 2015 ISE 4404 Primavera 2015 HOMEWORK 3 Devido a 2272015 antes da classe 1. (1 pt) Um processo é Exam 1 Solution Virginia Tech ISE 4404 - Primavera 2015 ISE 4404 Exame de Controle de Qualidade Estatística I (TIME: 90 Minutes) NOTAS: 1. Duas páginas dou Exame 1 Solução Trabalho de casa 6 Virginia Tech ISE 4404 - Primavera 2015 ISE4404 Primavera 2015 ATENÇÃO HOME 6 Devido a 4272015 antes da classe 1. (1 pt) Aplicando DOE tSTAT 497 CONFERÊNCIA NOTAS 2 1. AUTOCOVARIANCE E AS FUNÇÕES DE AUTOCORRELAÇÃO Para um processo estacionário, a autocovariância entre Y t e Y. Apresentação no tema: STAT 497 CONFERÊNCIA NOTAS 2 1. AUTOCOVARIANCE E AS FUNÇÕES DE AUTOCORRELAÇÃO Para um processo estacionário, A autocovariância entre Y t e Y. Transcrição de apresentação: 2 A AUTOCOVARIÇÃO E AS FUNÇÕES DE AUTOCORRERAÇÃO Para um processo estacionário, a autocovariância entre Y t e Y tk é e a função de autocorrelação é 2 3 A AUTOCOVARIÂNCIA E O AUTOCORRETO FUNÇÕES DE LATA PROPRIEDADES: (condição necessária) k e k são positivos semi - definidos para qualquer conjunto de pontos de tempo t 1, t 2,, t n e quaisquer números reais 1, 2 ,, n. 3 4 A FUNÇÃO DE AUTOCORRERAÇÃO PARCIAL (PACF) PACF é a correlação entre Y t e Y t-k após a sua dependência linear mútua nas variáveis intervenientes Y t-1, Y t-2,, Y t-k1 foi removida. A correlação condicional é geralmente referida como a autocorrelação parcial em séries temporais. 4 5 CÁLCULO DO PACF 1. ABORDAGEM DE REGRESSÃO: Considere um modelo a partir de um processo estacionário médio zero em que ki denota os coeficientes de Y t ki e etk é o termo de erro médio zero que não está correlacionado com Y t ki, i0,1, k . Multiplique ambos os lados por Y t kj 5 11 PROCESSO DE RUÍDO BRANCO (WN) Um processo é chamado de processo de ruído branco (WN), se é uma seqüência de variáveis aleatórias não correlacionadas de uma distribuição fixa com média constante, variância constante e Cov (Y T, Y tk) 0 para todos os k0. 11 12 PROCESSO DE RUÍDO BRANCO (WN) É um processo estacionário com função de autocovariância 12 Fenômeno Básico: ACFPACF 0, k 0. 13 PROCESSO DE RUÍDO BRANCO (WN) Ruído branco (em análise espectral): produz-se luz branca em que todas as freqüências ( Ou seja, cores) estão presentes em quantidade igual. Processo sem memória Bloco de construção a partir do qual podemos construir modelos mais complicados Ele desempenha o papel de uma base ortogonal na análise geral de vetor e função. 13 15 ERGODICIDADE A lei de Kolmogorovs de grande número (LLN) diz que se X i iid (, 2) for i 1. n, então temos o seguinte limite para a série de séries de tempo em conjunto, temos séries de séries temporais, não média de conjunto . Assim, a média é calculada pela média ao longo do tempo. A série de séries temporais converge para o mesmo limite que a média do conjunto. A resposta é sim, se Y t é estacionário e ergódico. 15 16 ERGODICIDADE Um processo estacionário de covariância é dito ergódico para a média, se a média da série temporal converge para a população. Da mesma forma, se a média da amostra fornecer uma estimativa consistente para o segundo momento, então o processo é dito ergódico para o segundo momento. 16 17 ERGODICIDADE Uma condição suficiente para que um processo estacionário de covariância seja ergódico para a média é aquele. Além disso, se o processo for gaussiano, as autocovariâncias absolvas absolutas também garantem que o processo seja ergódico para todos os momentos. 17 19 A FUNÇÃO DE AUTOCORRERAÇÃO DA AMOSTRA Um gráfico contra k um correlograma de amostra Para grandes tamanhos de amostra, normalmente é distribuído com média k e a variância é aproximada pela aproximação de Bartletts para processos em que k 0 para km. 19 m. 19 20 A FUNÇÃO DE AUTOCARRELAÇÃO DA AMOSTRA Na prática, eu sou desconhecida e substituída pelas estimativas da amostra. Portanto, temos o seguinte erro padrão de grande atraso de. 20 21 A FUNÇÃO DE AUTOCARRELAÇÃO DE AMOSTRA Para um processo WN, temos o intervalo de confiança 95 para k. Portanto, para testar o processo é WN ou não, desenhe 2n 12 linhas no correlograma de amostra. Se todos estiverem dentro dos limites, o processo pode ser o WN (também precisamos verificar o exemplo PACF). 21 Para um processo WN, ele deve estar próximo de zero. 22 A FUNÇÃO DE AUTOCORRERAÇÃO PARCIAL DA AMOSTRA Para um processo WN, 2n 12 pode ser usado como limites críticos em kk para testar a hipótese de um processo WN. 22 23 OPERADORES BACKSHIFT (OU LAG) Operador de mudança de direção, B é definido como, por exemplo, Processo de choque aleatório: 23 24 MOVIMENTO DE REPRESENTAÇÃO MÉDIA DE UMA SÉRIE DE TEMPO Também conhecido como Random Shock Form ou Wold (1938) Representação. Seja uma série de tempo. Para um processo estacionário, podemos escrever como uma combinação linear de seqüência de r. v.s não correlacionados (WN). UM PROCESSO LINEAL GERAL: 24 onde 0 I, é um processo WN médio de 0 e 27 REPRESENTAÇÃO MÉDIA DE MOVIMENTO DE UMA SÉRIE DE TEMPO Porque eles envolvem somas infinitas, para ser estatística. Portanto, é a condição necessária para que o processo seja estacionário. É um processo não determinista: um processo não contém componentes deterministas (sem aleatoriedade nos estados futuros do sistema) que podem ser previstos exatamente de seu próprio passado. 27 28 FUNÇÃO DE GERAÇÃO DE AUTOCOVARIANCE Para uma determinada sequência de autocovariâncias k, k0, 1, 2, a função de geração de autocovariância é definida como onde a variância de um dado processo 0 é o coeficiente de B 0 e a autocovariância do intervalo k, k é o Coeficiente de ambos B k e B k. 28 22 11 31 EXEMPLO a) Escreva a equação acima em forma de choque aleatório. B) Encontre a função de geração de autocovariância. 31 32 REPRESENTAÇÃO AUTORRESSIVA DE UMA SÉRIE DE TEMPO Esta representação também é conhecida como FORMULÁRIO INVERTIDO. Regressar o valor de Y t no tempo t em seu próprio passado mais um choque aleatório. 32 33 REPRESENTAÇÃO AUTORRESSIVA DE UMA SÉRIE DE TEMPO É um processo inversível (é importante para a previsão). Nem todo processo estacionário é reversível (Box e Jenkins, 1978). Invertibilidade fornece singularidade da função de autocorrelação. Isso significa que diferentes modelos de séries temporais podem ser reexpressados um pelo outro. 33 34 REGRA DE INVERTIBILIDADE USANDO A FORMA ALEGRE DE CHOQUE Para um processo linear, para ser reversível, as raízes de (B) 0 em função de B devem estar fora do círculo da unidade. Se é uma raiz de (B), então 1. (número real) é o valor absoluto de. (Número complexo) é 34 1. (número real) é o valor absoluto de. (Número complexo) é 34 35 REGRA DE INVERTIBILIDADE USANDO A FORMA DE CHOQUE ALEATÓRIO Pode ser estacionário se o processo puder ser redigitado em um RSF, ou seja, 35 36 REGRA DE ESTACIONAMENTO USANDO A FORMA INVERTIDA Para um processo linear, ser reversível, as raízes De (B) 0 em função de B deve estar fora do círculo da unidade. Se é uma raiz de (B), então 1. 36 1. 36 37 FORMULÁRIO DE CHOQUE ALEATÓRIO E FORMULAÇÃO INVERTIDA As representações AR e MA não são a forma do modelo. Porque eles contêm um número infinito de parâmetros que são impossíveis de estimar a partir de um número finito de observações. 37 38 MODELOS DA SÉRIE DE TEMPO Na Forma Invertida de um processo, se apenas números finitos de pesos não forem zero, ou seja, o processo é chamado de processo AR (p). 38 39 MODELOS DA SÉRIE DE TEMPO Na Forma de Choque Aleatório de um processo, se apenas números finitos de pesos não forem zero, ou seja, o processo é chamado de processo de MA (q). 39 41 MODELOS DA SÉRIE DE TEMPO O número de parâmetros em um modelo pode ser grande. Um alternativo natural é o processo AR e MA misturado Processo ARMA (p, q) Para um número fixo de observações, quanto mais parâmetros em um modelo, menor será a estimativa dos parâmetros. Escolha um modelo mais simples para descrever o fenômeno. 41 Download ppt STAT 497 NOTAS DE CONFERÊNCIA 2 1. A AUTOCOVARIÂNCIA E AS FUNÇÕES DE AUTOCORRERAÇÃO Para um processo estacionário, a autocovariância entre Y t e Y. CSC321 Inverno 2014 - Notas de aula Estes são comentários de Tijmens em vídeos de conferências Geoffs. 9 de janeiro Palestra 1a: Por que precisamos de aprendizagem em máquina e Palestra 1b: o que são redes neurais Estes vídeos apresentam a motivação e filosofia geral do ML. Não se preocupe se você não entender todos os aspectos técnicos de e. A história sobre reconhecimento de fala. Tente obter o quadro geral da história. Um ponto importante é que algumas coisas que nos sentem fáceis, como a visão, são difíceis para o software e vice-versa (xadrez). Palestra 1c: alguns modelos simples de neurônios Este vídeo apresenta alguns tipos básicos de neurônios. Mostra a formalização dos conceitos (conexão, atividade, etc.) em matemática. Palestra 1d: Um exemplo simples de aprendizagem A parte mais importante deste vídeo é a visualização. A visualização das redes neurais é difícil, mas importante. 14 de janeiro Palestra 1e: Três tipos de aprendizagem Preste atenção extra ao aprendizado supervisionado e sua definição matemática, porque isso foi o que estava fazendo durante a primeira metade do curso. Palestra 2a: Tipos de arquiteturas de redes neurais Preste atenção extra às redes de feed feed, porque isso é o que bem estará fazendo para a primeira metade do curso. Palestra 2b: Perceptrons: A primeira geração de redes neurais Tenha em mente a analogia com neurônios e sinapses. Pense em quais partes são aprendidas e quais não são, e pergunte-se por que, mesmo que você não encontre uma resposta. Tente entender completamente por que o viés pode ser implementado como uma unidade de entrada especial. Sinônimos: recurso de unidade de neurônio. O neurônio enfatiza a analogia com cérebros reais. Unidade enfatiza que é um dos componentes de uma grande rede. O recurso enfatiza que representa (implementa) um detector de recursos que está olhando a entrada e ativará se o recurso procurado estiver presente na entrada. Sinônimos: as unidades valorizam a unidade de ativação de unidades de saída. Observe que uma entrada de unidades é outra coisa. O valor enfatiza que podemos pensar nisso como uma variável, ou uma função da entrada. A ativação enfatiza que a unidade pode estar respondendo ou não, ou até certo ponto é mais apropriada para unidades logísticas, e pode enfatizar a analogia com cérebros reais. O resultado enfatiza que é diferente da entrada. 16 de janeiro Aula 2c: Uma visão geométrica de perceptrons Se você não é muito experiente com geometria e matemática, então isso vai desafiar sua imaginação. Não tenha pressa. Depois de entender este vídeo, os outros dois serão mais fáceis do que este. É sobre espaços de alta dimensão. Alguns fatos básicos sobre esses: Um ponto (a. k.a. localização) e uma flecha da origem para esse ponto, são freqüentemente usados indistintamente. Pode ser chamado de local ou vetor. Um hiperplano é o equivalente de alta dimensão de um plano em 3-D. Em 2-D, é uma linha. Os slides que mostram uma imagem de espaço de peso usam um espaço em massa de 2-D, de modo que é fácil de desenhar. As mesmas idéias se aplicam em alta D. O produto escalar entre dois vetores é o que você obtém quando você os multiplica em elementos e depois adiciona esses produtos. É também conhecido como produto interno. O produto escalar entre dois vetores que têm um ângulo de menos de 90 graus entre eles é positivo. Por mais de 90 graus é negativo. Se você não tiver certeza sobre a história desse vídeo depois de assisti-lo, assista-o novamente. Compreendê-lo é um pré-requisito para o próximo vídeo. Palestra 2d: Por que o aprendizado funciona Aqui, usando a interpretação geométrica, é apresentada uma prova de por que o algoritmo de aprendizagem do perceptron funciona. Os detalhes não são todos enunciados. Depois de assistir o vídeo, tente contar a história a outra pessoa (ou a uma parede) em suas próprias palavras, se possível com mais detalhes. Essa é a melhor maneira de estudar de qualquer maneira. Palestra 2e: O que os perceptrons não podem fazer Esta história motiva a necessidade de redes mais poderosas. Essas idéias serão importantes nas futuras palestras, quando estavam trabalhando para superar essas limitações. Sinônimos: caso de treinamento do caso de treinamento caso de treinamento, ponto de treinamento e às vezes mesmo entrada (isso definitivamente é errado, porém). O caso de entrada e a entrada enfatizam que isso é dado à rede neural, em vez de ser exigido da rede (como a resposta a um caso de teste). A entrada é ambígua, porque mais frequentemente, a entrada é curta para o neurônio de entrada. O caso de treinamento é o mais usado e é bastante genérico. O exemplo de treinamento enfatiza a analogia com a aprendizagem humana: aprendemos com exemplos. O ponto de treinamento enfatiza que é um local em um espaço de alta dimensão. 21 de janeiro Aula 3a: Aprendendo os pesos de um neurônio linear Este vídeo apresenta muitas idéias novas e é um grande pré-requisito para a compreensão dos outros dois vídeos (e de fato o resto do curso). Este vídeo apresenta um tipo diferente de neurônio de saída. Novamente, temos uma prova de convergência, mas é uma prova diferente. Não requer a existência de um vetor de peso perfeito. O erro residual realmente significa erro ou residual: é a quantidade pela qual a resposta foi errada. Um conceito muito central é introduzido sem ser tornado muito explícito: usamos derivativos para aprender, isto é, para melhorar os pesos. Tente entender por que esses conceitos são realmente muito relacionados. O aprendizado on-line significa que mudamos os pesos após cada exemplo de treinamento que vemos, e normalmente fazemos um ciclo através da coleção de exemplos de treinamento disponíveis. Palestra 3b: A superfície de erro para um neurônio linear Muito geometria novamente, bem como no video 2c sobre perceptrons. Esses tipos de análise são a melhor ferramenta que temos para entender o que uma regra de aprendizagem está fazendo. Isso não é fácil. Na imagem, usamos dois pesos e dois casos de treinamento. Esses números não precisam ter sido os mesmos, então não é como se um peso esteja conectado a um caso de treinamento e o outro peso estiver conectado ao outro caso de treinamento. Palestra 3c: Aprendendo os pesos de um neurônio de saída logística. Este é mais fácil do que os outros dois: tem muito menos novos conceitos. Pense sobre o que é diferente do caso com neurônios lineares, e o que é o mesmo. A função de erro ainda é E 12 (y-t) 2 Observe como depois de Geoff explicou o que a derivada é para uma unidade logística, ele considera o trabalho a ser feito. Isso porque a regra de aprendizagem é sempre simplesmente uma taxa de aprendizado multiplicada pela derivada. Sinônimos: perda (função) erro (função) objetivo (função) (valor). A perda enfatiza que a minimizou, sem dizer muito sobre o significado do número. O erro enfatiza que é a medida em que a rede faz as coisas erradas. A função objetiva é muito genérica. Este é o único onde não está claro, seja minimizando ou maximizando. 23 de janeiro Aula 3d: o algoritmo de backpropagation Aqui, começamos a usar camadas ocultas. Para treiná-los, precisamos do algoritmo de backpropragation. Camadas ocultas, e esse algoritmo, são muito importantes neste curso. Se houver alguma confusão sobre isso, vale a pena resolver em breve. A história de treinamento por perturbações serve principalmente como motivação para usar backprop, e não é tão central quanto o resto do vídeo. Esta computação, assim como a propagação direta, pode ser vetorializada em múltiplas unidades em cada camada e em vários casos de treinamento. Palestra 3e: Usando os derivados calculados por backpropagation Aqui, dois tópicos (otimização e regularização) são introduzidos, para serem explorados mais adiante no curso. 28 de janeiro Palestra 4a: Aprender a prever a próxima palavra Agora que temos o método básico para criar camadas ocultas (backprop), veríamos o que pode ser alcançado com elas. Começamos a perguntar como a rede aprende a usar suas unidades escondidas, com uma aplicação de brinquedo para árvores genealógicas e uma aplicação real para modelagem de linguagem. Este material constitui a base da atribuição 1. Este vídeo apresenta representações distribuídas. Não é realmente sobre prever palavras, mas está construindo isso. Faz um excelente trabalho de olhar dentro do cérebro de uma rede neural. Isso é importante, mas nem sempre é fácil de fazer. Palestra 4b: Uma breve diversão na ciência cognitiva Este vídeo é parte do curso, ou seja, não é opcional, apesar do que Geoff diz no início do vídeo. Este vídeo fornece uma interpretação de alto nível sobre o que está acontecendo na rede de árvores genealógicas. Este video contrasta dois tipos de inferência: inferência consciente, baseada no conhecimento relacional. Inferência inconsciente, baseada em representações distribuídas. Palestra 4c: Outra diversão: a função de saída softmax Esta não é realmente uma diversão: é um ingrediente crucial dos modelos de linguagem e de muitas outras redes neurais. Nós vimos neurônios de saída de limiar binário e neurônios de saída logística. Este vídeo apresenta um terceiro tipo. Este só faz sentido se tivermos vários neurônios de saída. O primeiro problema com erro quadrado é um problema que aparece ao combinar a função de perda de erro ao quadrado com unidades de saída logísticas. A logística tem pequenos gradientes, se a entrada é muito positiva ou muito negativa. Material escrito: a matemática das unidades softmax Isso ultrapassa as unidades softmax com mais detalhes, incluindo derivadas e derivações detalhadas. Palestra 4d: modelos de linguagem neuro-probabilística Esta é a primeira das várias aplicações de redes neurais que estudam bem em algum detalhe neste curso. Sinônimos: palavra incorporação de caracteres de palavras-chave codificação de palavras vetoriais. Todos estes descrevem a coleção aprendida de números que é usada para representar uma palavra. A incorporação enfatiza que é um local em um espaço de alta dimensão: é onde as palavras estão incorporadas nesse espaço. Quando verificamos quais são as palavras próximas, pensaram nessa incorporação. O vetor de características enfatiza que é um vetor em vez de um escalar, e que é um componente, ou seja, composto de múltiplos valores de características. A codificação é muito genérica e não enfatiza nada específico. 30 de janeiro Palestra 4e: Formas de lidar com o grande número de possíveis saídas. Caminho 1: uma arquitetura serial, baseada em tentar as próximas palavras do candidato, usando vetores de recursos (como no exemplo da família). Isso significa menos parâmetros, mas ainda muito trabalho. Caminho 2: usando uma árvore binária. Caminho 3: Collobert Westons procura bons vetores de características para palavras, sem tentar prever a próxima palavra em uma frase. Exibição de vetores de recursos aprendidos. Imagem bonita 4 de fevereiro Palestra 5a: Por que o reconhecimento de objetos é difícil Mudando para uma aplicação diferente de redes neurais: visão por computador, ou seja, ter um computador realmente entender o que uma imagem está mostrando. Este vídeo explica por que é difícil para um computador ir de uma imagem (ou seja, a cor e intensidade de cada pixel na imagem) para uma compreensão do que é uma imagem de. Algumas dessas discussões são sobre imagens de objetos bidimensionais (escrita em papel), mas a maioria é sobre fotografias de cenas do mundo real 3-D. Certifique-se de que compreende o último slide: explica como mudar de idade e peso é como um objeto que se desloca para uma parte diferente da imagem (para diferentes pixels). Esses dois podem parecer situações muito diferentes, mas a analogia é de fato bastante boa: eles não são realmente muito diferentes. Compreender isso é um pré-requisito especialmente para o próximo vídeo. Palestra 5b: alcançar invariantes de pontos de vista invariantes significa, literalmente, que não varia: não muda como resultado de uma mudança de ponto de vista. Isso significa que, se o neurônio para o detector de características for bastante ativo (digamos, é um neurônio logístico e tem um valor próximo de 1) para uma imagem de entrada, então, se damos à rede neural uma imagem dessa mesma cena de um pouco diferente Ponto de vista, esse mesmo neurônio ainda será bastante ativo. Sua atividade é invariante sob mudanças no ponto de vista. O invariante é uma questão de graus: há muito pouco isso é completamente invariante, ou que não tem nenhuma invariância, mas algumas coisas são mais invariantes do que outras. Os recursos invariantes são coisas como um círculo vermelho em algum lugar da imagem, e o neurônio para esse detector de recursos deve de alguma forma aprender a ligar quando há realmente um círculo vermelho na entrada e desligar se não houver. Tente encontrar exemplos de recursos que são amplamente invariantes em mudanças de ponto de vista e exemplos de recursos que não possuem essa propriedade. Palestra 5c: redes convolutivas para o reconhecimento de dígitos Como muitas das histórias que contamos com a aplicação do reconhecimento de dígitos manuscritos, este também é aplicável a uma grande variedade de tarefas de visão. É apenas esse reconhecimento de dígitos manuscritos que é um exemplo padrão para redes neurais. As redes convolutivas ainda são muito usadas. O slide Backpropagation com restrições de peso pode ser confuso. Aqui estão alguns esclarecimentos. (Note que nem todos os pesquisadores usam as mesmas definições). A Backpropagation de erro (a. k.a. propropagação ou backprop) é um algoritmo que usa habilmente a regra de cadeia para calcular gradientes para redes neurais. Realmente não se preocupa com restrições de pesos. O que se preocupa com as restrições de peso é o otimizador: o sistema que, pouco a pouco, altera os viés de pesos da rede para reduzir o erro, e que usa o gradiente (obtido por backprop) para descobrir em qual direção mudar os pesos . O gradiente para dois pesos normalmente não será o mesmo, mesmo que sejam dois pesos que se casam como para se manterem iguais. O otimizador pode manter os pesos amarrados o mesmo de pelo menos duas maneiras. Uma maneira é usar a soma dos gradientes das várias instâncias dos pesos ligados como se fosse o gradiente para cada uma das instâncias. É o que o vídeo descreve. Outra maneira é usar a média em vez da soma. Ambos os métodos têm suas vantagens. O ponto principal disso é que não são os gradientes que mudam se temos convolução, o que é o que fazemos com os gradientes. Outra interpretação é dizer que realmente não há dois (ou mais) pesos que estavam tentando manter a mesma, mas que realmente é um único parâmetro que aparece em dois (ou mais) lugares na rede. Essa é a interpretação mais matemática. Favorece usar a soma dos gradientes em vez do meio (você pode tentar descobrir por que, se você está se sentindo em matemática). Essa interpretação também está mais próxima do que normalmente ocorre no programa de computador que corre a rede neural convolutiva. Palestra 5d: redes convolutivas para reconhecimento de objetos Este vídeo é mais uma coleção de histórias de sucesso interessantes do que uma introdução completa a novos conceitos. Sente-se e divirta-se. Terminologia: a backpropagação é freqüentemente usada como o nome da combinação de dois sistemas: Sistema 1: o sistema de backpropagation de erro que calcula gradientes. Sistema 2: o sistema de descida de gradiente que usa esses gradientes para melhorar gradualmente os pesos e os preconceitos de uma rede neural. A maioria dos pesquisadores, incluindo Geoffrey, geralmente significa essa combinação, quando eles dizem backpropagation. 6 de fevereiro Palestra 6a: Visão geral da descida do gradiente do mini-lote Agora, iriam discutir a otimização numérica: como melhor ajustar os pesos e os preconceitos, usando as informações de gradiente do algoritmo de backprop. Este vídeo elabora o algoritmo de otimização de rede neural mais padrão (descida de gradiente de mini-lote), que já vimos antes. Foram elaborados alguns problemas introduzidos no video 3e. Palestra 6b: Um saco de truques para descida de gradiente de mini-lote Parte 1 trata de transformar os dados para tornar a aprendizagem mais fácil. Às 1:10, há um comentário sobre pesos aleatórios e escalação. O que é nesse comentário é o tamanho médio da entrada para a unidade. Às 1:15, o bom princípio: o que ele quer dizer é INVERSAMENTE proporcional. Às 4:38, Geoff diz que a tangente hiperbólica é o dobro da logística menos uma. Isso não é verdade, mas é quase verdade. Como um exercício, descubra saídas naquela equação. Às 5:08, Geoffrey sugere que com uma unidade tangente hiperbólica, é mais difícil varrer as coisas sob o tapete do que com uma unidade logística. Eu não entendo seu comentário, então, se você também não, não se preocupe. Este comentário não é essencial neste curso: nunca utilizamos tangentes hiperbólicas neste curso. A Parte 2 trata de mudar o algoritmo de descida de gradiente estocástico de maneiras sofisticadas. Bem, olhe esses quatro métodos com mais detalhes, mais tarde no curso. Jargão: descendência de gradiente estocástico é mini-lote ou descida de gradiente em linha. O termo enfatiza que não é descendência de gradiente de lote completo. Estocástico significa que envolve aleatoriedade. No entanto, esse algoritmo normalmente não envolve aleatoriedade. No entanto, seria verdadeiramente estocástico se escolhés aleatoriamente 100 casos de treinamento de todo o conjunto de treinamento, sempre que precisássemos do próximo mini-lote. Nós chamamos de estocástica tradicional gradiente descendente estocástica porque é, de fato, muito semelhante a essa versão verdadeiramente estocástica. Jargão: uma média de corrida é uma média ponderada no passado recente, onde o passado mais recente é mais ponderado. 11 de fevereiro Palestra 6c: o método momentum Agora iriam dar uma olhada mais completa em alguns dos truques sugeridos no video 6b. O maior desafio neste vídeo é pensar na superfície do erro como uma paisagem montanhosa. Se você pode fazer isso, e você entende bem a analogia, esse vídeo será fácil. Você pode ter que voltar ao vídeo 3b, que apresenta a superfície do erro. Conceitos importantes nesta analogia: ravina, um ponto baixo na superfície, oscilações, atingindo uma altitude baixa, bola rolante, velocidade. Todos esses têm significado no lado da paisagem da montanha da analogia, bem como no lado de aprendizado da rede neural da analogia. O significado da velocidade no lado de aprendizagem da rede neural da analogia é a principal idéia do método momentum. Vocabulário: o impulso da palavra pode ser usado com três significados diferentes, por isso é fácil confundir. Isso pode significar o método de impulso para a aprendizagem da rede neural, ou seja, a idéia que é introduzida neste vídeo. Este é o significado mais apropriado da palavra. Pode significar a constante de viscosidade (tipicamente 0,9), às vezes chamada de alfa, que é usada para reduzir a velocidade. Pode significar a velocidade. Este não é um significado comum da palavra. Observe que um pode escolher de forma equivalente incluir a taxa de aprendizado no cálculo da atualização a partir da velocidade, em vez de no cálculo da velocidade. Palestra 6d: Taxas de aprendizado adaptativo para cada conexão Isso é realmente para cada parâmetro, isto é, os preconceitos e os pontos fortes da conexão. Vocabulário: um ganho é um multiplicador. Este vídeo apresenta uma idéia básica (veja o título do video), com uma implementação simples. No próximo vídeo, veja uma implementação mais sofisticada. Você pode ter a impressão desse vídeo de que os detalhes sobre a melhor maneira de usar esses métodos não são universalmente aceitos. Isso é verdade. Sua pesquisa está em andamento. Palestra 6e: Rmsprop: Divida o gradiente por uma média em execução de sua magnitude recente Este é outro método que trata cada peso separadamente. O rprop usa o método do vídeo 6d, além de que ele apenas olha para o sinal do gradiente. Certifique-se de entender como o impulso é como usar uma média (ponderada) de gradientes passados. Sinônimos: média móvel, média de corrida, média decadente. All of these describe the same method of getting a weighted average of past observations, where recent observations are weighted more heavily than older ones. That method is shown in video 6e at 5:04. (there, its a running average of the square of the gradient) moving average and running average are fairly generic. running average is the most commonly used phrase. decaying average emphasizes the method thats used to compute it: theres a decay factor in there, like the alpha in the momentum method. February 13 Lecture 7a: Modeling sequences: A brief overview This video talks about some advanced material that will make a lot more sense after you complete the course: it introduces some generative models for unsupervised learning (see video 1e), namely Linear Dynamical Systems and Hidden Markov Models. These are neural networks, but theyve very different in nature from the deterministic feedforward networks that weve been studying so far. For now, dont worry if those two models feel rather mysterious. However, Recurrent Neural Networks are the next topic of the course, so make sure that you understand them. Lecture 7b: Training RNNs with back propagation Most important prerequisites to perhaps review: videos 3d and 5c (about backprop with weight sharing). After watching the video, think about how such a system can be used to implement the brain of a robot as its producing a sentence of text, one letter at a time. What would be input what would be output what would be the training signal which units at which time slices would represent the input output February 25 Lecture 7c: A toy example of training an RNN Clarification at 3:33: there are two input units. Do you understand what each of those two is used for The hidden units, in this example, as in most neural networks, are logistic. Thats why its somewhat reasonable to talk about binary states: those are the extreme states. Lecture 7d: Why it is difficult to train an RNN This is all about backpropagation with logistic hidden units. If necessary, review video 3d and the example that we studied in class. Remember that Geoffrey explained in class how the backward pass is like an extra long linear network Thats the first slide of this video. Echo State Networks: At 6:36, oscillator describes the behavior of a hidden unit (i. e. the activity of the hidden unit oscillates), just like we often use the word feature to functionally describe a hidden unit. Echo State Networks: like when we were studying perceptrons, the crucial question here is whats learned and whats not learned. ESNs are like perceptrons with randomly created inputs. At 7:42: the idea is good initialization with subsequent learning (using backprops gradients and stochastic gradient descent with momentum as the optimizer). Lecture 7e: Long-term Short-term-memory This video is about a solution to the vanishing or exploding gradient problem. Make sure that you understand that problem first, because otherwise this video wont make much sense. The material in this video is quite advanced. In the diagram of the memory cell, theres a somewhat new type of connection: a multiplicative connection. Its shown as a triangle. It can be thought of as a connection of which the strength is not a learned parameter, but is instead determined by the rest of the neural network, and is therefore probably different for different training cases. This is the interpretation that Geoffrey uses when he explains backpropagation through time through such a memory cell. That triangle can, alternatively, be thought of as a multiplicative unit: it receives input from two different places, it multiplies those two numbers, and it sends the product somewhere else as its output. Which two of the three lines indicate input and which one indicates output is not shown in the diagram, but is explained. In Geoffreys explanation of row 4 of the video, the most active character means the character that the net, at this time, consider most likely to be the next character in the character string, based on what the pen is doing. February 27 Lecture 9a: Overview of ways to improve generalization In the discussion of overfitting, we assume that the bottleneck of our ability to do machine learning is the amount of data that we have not the amount of training time or computer power that we have. Lecture 9b: Limiting the size of the weights There is some math in this video. Its not complicated math. You should make sure to understand it. Lecture 9c: Using noise as a regularizer First slide This slide serves to show that noise is not a crazy idea. The penalty strength can be thought of as being sigma i squared, or twice that (to compensate for the 12 in the weight decay cost function), but that detail is not important here. Second slide (the math slide) I dont entirely like the explanation of this slide, but the formulas are correct. The reason why the middle term is zero is that all of the epsilons have mean zero. You may notice that the result is not exactly like the L2 penalty of the previous video: the factor 12 is missing. Or equivalently, the strength of the penalty is not sigma i squared, but twice that. The main point, however, is that this noise is equivalent to an L2 penalty. Jargon: overfitting, underfitting, generalization, and regularization Overfitting can be thought of as the model being too confident about what the data is like: more confident than would be justified, given the limited amount of training data that it was trained on. If an alien from outer space would take one look at a street full of cars (each car being a training case), and it so happens that there were only two Volkswagens there, one dark red and one dark blue, then the alien might conclude all Volkswagens on Earth are of dark colours. That would be overfitting. If, on the other hand, the alien would be so reluctant to draw conclusions that he even fails to conclude that cars typically have four wheels, then that would be underfitting. We seek the middle way, where we dont draw more than a few unjustified conclusions, but we do draw most of the conclusions that really are justified. Regularization means forcing the model to draw fewer conclusions, thus limiting overfitting. If we overdo it, we end up underfitting. Jargon: generalization typically means the successful avoidance of both overfitting and underfitting. Since overfitting is harder to avoid, generalization often simply means the absence of (severe) overfitting. The accidental regularities that training data contains are often complicated patterns. However, NNs can learn complicated patterns quite well. Jargon: capacity is learning capacity. Its the amount of potential (artificial) brain power in a model, and it mostly depends on the number of learned parameters (weights biases). March 4 Lecture 9d: Introduction to the full Bayesian approach Videos 9d and 9e are not easy. Theres a lot of math, and not everything is explained in great detail. However, they provide invaluable insights into all regularization techniques. Dont rush through them take your time. The full Bayesian approach is the ultimate in regularization. The gold standard. However, it takes so much computation time, that we always look for approximations to it. The terms prior, likelihood term, and posterior are explained in a more mathematical way at the end of the video, so if youre confused, just keep in mind that a mathematical explanation follows. For the coin example, try not to get confused about the difference between p (the probability of seeing heads) and P (the abbreviation for probability). Jargon: maximum likelihood means maximizing the likelihood term, without regard to any prior that there may be. At 8:22 theres a slightly incorrect statement in the explanation, though not in the slide. The mean is not at .53 (although it is very close to that). Whats really at .53 is the mode, a. k.a. the peak, a. k.a. the most likely value. The Bayesian approach is to average the networks predictions, at test time, where average means that we use network parameters according to the posterior distribution over parameter settings given the training data. Essentially, were averaging the predictions from many predictors: each possible parameter setting is a predictor, and the weight for that weighted average is the posterior probability of that parameter setting. Lecture 9e: The Bayesian interpretation of weight decay In this video, we use Bayesian thinking (which is widely accepted as very reasonable) to justify weight decay (which may sound like an arbitrary hack). Maximum A Posteriori (MAP) learning means looking for that setting of the network parameters that has greatest posterior probability given the data. As such its somewhat different from the simpler Maximum Likelihood learning, where we look for the setting of the parameters that has the greatest likelihood term: there, we dont have a prior over parameter settings, so its not very Bayesian at all. Slide 1 introduces Maximum Likelihood learning. Try to understand well what that has to do with the Bayesian likelihood term, before going on to the next slide. The reason why we use Gaussians for our likelihood and prior is that that makes the math simple, and fortunately its not an insane choice to make. However, it is somewhat arbitrary. 10:15: Dont worry about the absence of the factor 12 in the weight decay strength. It doesnt change the story in any essential way. Lecture 10a: Why it helps to combine models This video is about a very different (and more powerful) method of preventing overfitting. Theres, again, a lot of math, although its less difficult than in videos 9d and 9e. Be sure to understand the formulas before moving on. Were going to combine many models, by using the average of their predictions, at test time. 5:38: Theres a mistake in the explanation of why that term disappears. The mistake is that -2(t-ybar) is not a random variable, so it makes no sense to talk about its variance, mean, correlations, etc. The real reason why the term disappears is simply that the right half of the term, i. e. i, is zero, because ybar is the mean of the yi values. Lecture 10b: Mixtures of Experts This is a different way of combining multiple models. Nearest neighbor is a very simple regression method thats not a neural network. 7:22: The formula is confusing. The idea is a weighted average of squared errors (weighted by those probabilities pi). That can be written as an weighted expectation, with weights pi, of (t-yi)2 or as a sum of pi (t-yi)2. The formula on the slide mixes those two notations. On the next slide its written correctly. 10:03: This formula is not trivial to find, but if you differentiate and simplify, you will find it. March 6 Lecture 10c: The idea of full Bayesian learning In this video you learn what exactly we want to do with that difficult-to-compute posterior distribution. This video shows an ideal method, which is so time-consuming that we can never do it for normal-size neural networks. This is a theory video. We average the predictions from many weight vectors on test data, with averaging weights coming from the posterior over weight vectors given the training data. That sounds simple and is indeed, in a sense, what happens. However, theres more to be said about what this averaging entails. The Bayesian approach is all about probabilities, so the idea of producing a single number as output has no place in the Bayesian approach. Instead, the output is a distribution, indicating how likely the net considers every possible output value to be. In video 9e we introduced the idea that the scalar output from a network really is the mean of such a predictive distribution. We need that idea again here. That is what Geoffrey means at 6:37. Adding noise to the output is a way of saying that the output is simply the centre of a predictive distribution. Whats averaged is those distributions: the predictive distribution of the Bayesian approach is the weighted mean of all those Gaussian predictive distributions of the various weight vectors. By the way, the result of this averaging of many such Gaussian distributions is not a Gaussian distribution. However, if were only interested in the mean of the predictive distribution (which would not be very Bayesian in spirit), then we can simply average the outputs of the networks to get that mean. You can mathematically verify this for yourself. Lecture 10d: Making full Bayesian learning practical Maximum Likelihood is the least Bayesian. Maximum A Posteriori (i. e. using weight decay) is slightly more Bayesian. This video introduces a feasible method thats even closer to the Bayesian ideal. However, its necessarily still an approximation. 4:22: save the weights means recording the current weight vector as a sampled weight vector. Lecture 10e: Dropout This is not Bayesian. This is a specific way of adding noise (that idea was introduced in general in video 9c). Its a recent discovery and it works very, very well. Dropout can be viewed in different ways: One way to view this method is that we add noise. Another more complicated way, which is introduced first in the video, is about weight sharing and different models. That second way to view it serves as the explanation of why adding noise works so well. The first slide in other words: a mixture of models involves taking the arithmetic mean (a. k.a. the mean) of the outputs, while a product of models involves taking the geometric mean of the outputs, which is a different kind of mean. March 13 Lecture 11a: Hopfield Nets Now, we leave behind the feedforward deterministic networks that are trained with backpropagation gradients. Were going to see quite a variety of different neural networks now. These networks do not have output units. These networks have units that can only be in states 0 and 1. These networks do not have units of which the state is simply a function of the state of other units. These networks are, instead, governed by an energy function. Best way to really understand Hopfield networks: Go through the example of the Hopfield network finding a low energy state, by yourself. Better yet, think of different weights, and do the exercise with those. Typically, well use Hopfield networks where the units have state 0 or 1 not -1 or 1. Lecture 11b: Dealing with spurious minima The last in-video question is not easy. Try to understand how the perceptron learning procedure is used in a Hopfield net its not very thoroughly explained. Lecture 11c: Hopfield nets with hidden units This video introduces some sophisticated concepts, and is not entirely easy. An excitatory connection is a connection of which the weight is positive. inhibitory, likewise, means a negative weight. We look for an energy minimum, given the state of the visible units. That means that we look for a low energy configuration, and well consider only configurations in which the visible units are in the state thats specified by the data. So were only going to consider flipping the states of the hidden units. Be sure to really understand the last two sentences that Geoffrey speaks in this video. March 18 Lecture 11d: Using stochastic units to improve search Were still working with a mountain landscape analogy. This time, however, its not an analogy for parameter space, but for state space. A particle is, therefore, not a weight vector, but a configuration. Whats the same is that were, in a way, looking for low points in the landscape. Were also using the physics analogy of systems that can be in different states, each with their own energy, and subject to a temperature. This analogy is introduced in slide 2. This is the analogy that originally inspired Hopfield networks. The idea is that at a high temperature, the system is more inclined to transition into configurations with high energy, even though it still prefers low energy. 3:25: the amount of noise means the extent to which the decisions are random. 4:20: If T really were 0, wed have division by zero, which is not good. What we really mean here is as T gets really, really small (but still positive). For mathematicians: its the limit as T goes to zero from above. Thermal equilibrium, and this whole random process of exploring states, is much like the exploration of weight vectors that we can use in Bayesian methods. Its called a Markov Chain, in both cases. Lecture 11e: How a Boltzmann machine models data Now, were making a generative model of binary vectors. In contrast, mixtures of Gaussians are a generative model of real-valued vectors. 4:38: Try to understand how a mixture of Gaussians is also a causal generative model. 4:58: A Boltzmann Machine is an energy-based generative model. 5:50: Notice how this is the same as the earlier definition of energy. Whats new is that its mentioning visible and hidden units separately, instead of treating all units the same way. Lecture 12a: Boltzmann machine learning 6:50: Clarification: The energy is linear in the weights, but quadratic in the states. What matters for this argument is just that its linear in the weights. March 20 Lecture 12c: Restricted Boltmann Machines 3:02. Here, a particle is a configuration. These particles are moving around the configuration space, which, when considered with the energy function, is our mountain landscape. 4:58. Its called a reconstruction because its based on the visible vector at t0 (via the hidden vector at t0). It will, typically, be quite similar to the visible vector at t0. A fantasy configuration is one drawn from the model distribution by running a Markov Chain for a long time. The word fantasy is chosen as part of the analogy of a Boltzmann Machine vs. a brain that learned several memories. Lecture 12d: An example of RBM learning This is not an easy video. Prerequisite is a rather extensive understanding of what an RBM does. Be sure to understand video 12c quite well before proceeding with 12d. Prerequisite for this video is that you understand the reconstruction concept of the previous video. The first slide is about an RBM, but uses much of the same phrases that we previously used to talk about deterministic feedforward networks. The hidden units are described as feature detectors, or features for short. The weights are shown as arrows, even though a Boltzmann Machine has undirected connections. Thats because calculating the probability of the hidden units turning on, given the state of the visible units, is exactly like calculating the real-valued state of a logistic hidden unit, in a deterministic feedforward network. However, in a Boltzmann Machine, that number is then treated as a probability of turning on, and an actual state of 1 or 0 is chosen, randomly, based on that probability. Well make further use of that similarity next week. 2:30. That procedure for changing energies, that was just explained, is a repeat (in different words) of the Contrastive Divergence story of the previous video. If you didnt fully realize that, then review. Lecture 13a: The ups and downs of back propagation 6:15: Support Vector Machines are a popular method for regression: for learning a mapping from input to output, as we have been doing with neural networks during the first half of the course. March 25 Lecture 13b: Belief Nets 7:43. For this slide, keep in mind Boltzmann Machines. There, too, we have hidden units and visible units, and its all probabilistic. BMs and SBNs have more in common than they have differences. 9:16. Nowadays, Graphical Models are sometimes considered as a special category of neural networks, but in the history thats described here, they were considered to be very different types of systems. March 27 Lecture 13c: Learning sigmoid belief nets It would be good to read the first part of The math of Sigmoid Belief Nets before watching this video. 4:39. The second part of The math of Sigmoid Belief Nets mathematically derives this formula. Read it after finishing this video. 7:04. Actually, those numbers arent quite correct, although theyre not very far off. The take-home message, however, is correct: p(0,1) and p(1,0) are large, while the other two are small. 7:33. Heres explaining away rephrased in a few more ways: If the house jumps, everybody starts wondering what might have caused that. Was there an earthquake Did a truck hit the house Were not at all sure. When the wind then carries, through the open window, the voice of an upset truck driver bemoaning his bad luck, we know that a truck hit the house. That finding explains away the possibility that there might have been an earthquake: all of a sudden, we no longer suspect that there might have been an earthquake, even though we havent consulted the seismological office. In other words: as soon as we learn something about one possible cause (truck hits house), we can make an inference about other possible causes (earthquake). Lecture 13d: The wake-sleep algorithm 4:38. Another way to say this is that the multiple units behave independently: the probability of unit 2 turning on has nothing to do with whether or not unit 1 turned on. 5:30. The green weights are the weights of the Sigmoid Belief Net. An unbiased sample from some distribution is a sample thats really drawn from that distribution. A biased sample is a sample thats not quite from the intended distribution. We dont really do maximum likelihood learning. We just use the maximum likelihood learning rule, while substituting a sample from the posterior by a sample from the approximate posterior. The only maximum likelihood part of it is that the formula for going from that sample to delta w is the same. April 1 Lecture 15a: From PCA to autoencoders Remember how, in assignment 4, were use unsupervised learning to obtain a different representation of each data case PCA is another example of that, but for PCA, theres even greater emphasis on obtaining that different representation. Chapter 15 is about unsupervised learning using deterministic feedforward networks. By contrast, the first part of the course was about supervised learning using deterministic feedforward networks, and the second part was about unsupervised learning using very different types of networks. 0:26. A linear manifold is a hyperplane. 1:25. A curved manifold is no longer a hyperplane. One might say its a bent hyperplane, but really, hyperplane means that its not bent. 1:37. N-dimensional data means that the data has N components and is therefore handled in a neural network by N input units. 1:58. Here, that lower-dimensional subspace is yet another synonym for linear manifold and hyperplane. 2:46 and 3:53. Geoffrey means the squared reconstruction error. 4:43. Here, for the first time, we have a deterministic feedforward network with lots of output units that are not a softmax group. An autoencoder is a neural network that learns to encode data in such a way that the original can be approximately reconstructed. Lecture 15b: Deep autoencoders 2:51. Gentle backprop means training with a small learning rate for not too long, i. e. not changing the weights a lot. Lecture 15c: Deep autoencoders for document retrieval Latent semantic analysis and Deep Learning sound pretty good as phrases. theres definitely a marketing component in choosing such names :) 1:14. The application for the method in this video is this: given one document (called the query document), find other documents similar to it in this giant collection of documents. 2:04. Some of the text on this slide is still hidden, hence for example the count of 1 for reduce. 3:09. This slide is a bit of a technicality, not very central to the story. If you feel confused, postpone focusing on this one until youve understood the others well. 6:49. Remember t-SNE April 3 Lecture 15d: Semantic Hashing Were continuing our attempts to find documents (or images), in some huge given pile, that are similar to a single given document (or image). Last time, we focused on making the search produce truly similar documents. This time, we focus on simply making the search fast (while still good). This video is one of the few times when machine learning goes hand in hand very well with intrinsically discrete computations (the use of bits, in this case). Well still use a deep autoencoder. This video is an example of using noise as a regularizer (see video 9c). Crucial in this story is the notion that units of the middle layer, the bottleneck, are trying to convey as much information as possible in their states to base the reconstruction on. Clearly, the more information their states contain, the better the reconstruction can potentially be. Lecture 15e: Learning binary codes for image retrieval It is essential that you understand video 15d before you try 15e. 7:13. Dont worry if you dont understand that last comment. Lecture 15f: Shallow autoencoders for pre-training This video is quite separate from the others of chapter 15. CSC321 - Introduction to Neural Networks and Machine Learning
No comments:
Post a Comment