Grande competição de capacidade de texto longo de modelos: de 4000 a 400.000 tokens, a "capacidade de leitura" da IA dispara
Os grandes modelos estão a melhorar a sua capacidade de processamento de longos textos a uma velocidade impressionante. Desde os iniciais 4000 tokens até aos atuais 400000 tokens, a capacidade de lidar com longos textos parece ter-se tornado um novo padrão para os fornecedores de grandes modelos.
A nível internacional, a OpenAI aumentou várias vezes o comprimento da entrada de contexto do GPT-3.5 de 4 mil para 16 mil tokens, enquanto o GPT-4 passou de 8 mil para 32 mil tokens. O seu concorrente Anthropic elevou o comprimento do contexto para 100 mil tokens. O LongLLaMA até expandiu o comprimento do contexto para mais de 256 mil tokens.
No âmbito nacional, a Kimi Chat, lançada pela startup de modelos grandes, Dark Side of the Moon, suporta a entrada de 200.000 caracteres chineses, cerca de 400.000 tokens. A tecnologia LongLoRA, desenvolvida em colaboração entre a Universidade Chinesa de Hong Kong e o MIT, pode expandir o comprimento do texto de um modelo de 7B para 100.000 tokens e de um modelo de 70B para 32.000 tokens.
Atualmente, muitas das principais empresas e instituições de pesquisa de grandes modelos, incluindo OpenAI, Anthropic, Meta e a Face Oculta da Lua, estão a focar na expansão do comprimento do contexto como uma direção de atualização prioritária. Essas empresas são geralmente bem vistas pelo mercado de capitais, com um rápido crescimento tanto na escala de financiamento quanto na avaliação.
As empresas de grandes modelos atribuem tanta importância à tecnologia de textos longos, o que significa a quebra de 400 mil tokens? À primeira vista, isso representa um aumento significativo na extensão do texto de entrada e na capacidade de leitura do modelo. Desde o início, quando apenas conseguia processar um artigo curto, até agora, quando pode ler um romance inteiro, os cenários de aplicação do modelo foram significativamente ampliados.
A um nível mais profundo, a tecnologia de longos textos está a impulsionar a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica. A capacidade de resumo de longos documentos, compreensão de leitura e perguntas e respostas é a chave para a modernização inteligente nessas áreas.
No entanto, assim como os parâmetros do modelo, o comprimento do texto não é necessariamente melhor quanto mais longo for. Pesquisas mostram que não há uma correlação positiva simples entre o comprimento do contexto suportado pelo modelo e o seu desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.
Atualmente, a exploração da tecnologia de longos textos ainda não atingiu um limite. Empresas de grandes modelos, tanto nacionais quanto internacionais, continuam a fazer avanços, e 400 mil tokens podem ser apenas o começo.
Por que as empresas de grandes modelos competem para "envolver" textos longos?
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que a limitação do comprimento de entrada dos grandes modelos está causando muitos desafios para a implementação de aplicações, e esta é precisamente a razão pela qual várias empresas estão focadas na tecnologia de textos longos.
Por exemplo, em cenários de personagens virtuais, devido à capacidade insuficiente de lidar com textos longos, os personagens virtuais podem esquecer informações importantes. Ao desenvolver jogos do tipo "murder mystery", a insuficiência no comprimento da entrada pode levar à redução de regras e definições, afetando o efeito do jogo. Nas áreas profissionais como direito e finanças, a análise e geração de conteúdo profundo também costumam ser limitadas.
Textos longos desempenham um papel importante nas futuras aplicações nativas de Agentes e IA. Os Agentes precisam confiar em informações históricas para planeamento e tomada de decisões, enquanto as aplicações nativas de IA necessitam de contexto para manter uma experiência do utilizador coerente e personalizada.
Yang Zhilin acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros, e o número de etapas de execução é o comprimento do contexto. A tecnologia de textos longos não só pode resolver alguns problemas iniciais dos grandes modelos, mas também é uma das tecnologias-chave para promover a implementação na indústria e nas aplicações.
Com o Kimi Chat recém-lançado pela Dark Side of the Moon, podemos ter um vislumbre das funcionalidades atualizadas dos grandes modelos na era dos textos longos:
Extração, resumo e análise de informações chave de textos longos.
Aumento da capacidade de geração e modificação de código
Interpretação de papéis em cenários de diálogos longos
Estas funcionalidades mostram que os chatbots estão a evoluir para direções mais especializadas, personalizadas e profundas, podendo tornar-se um importante motor para a concretização da indústria e o surgimento de super aplicativos.
O dilema do "triângulo impossível" em textos longos
Na tecnologia de texto longo, existe o dilema do "triângulo impossível" entre o comprimento do texto, a atenção e o poder computacional. Isso se manifesta em:
Quanto mais longo for o texto, mais difícil é concentrar a atenção suficiente e mais difícil é digerir completamente a informação.
Sob limitações de atenção, textos curtos não conseguem interpretar informações complexas.
Processar textos longos requer uma grande quantidade de poder computacional, aumentando os custos.
A raiz deste dilema reside no fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de autoatenção nesta estrutura faz com que a carga computacional cresça em um nível quadrático com o comprimento do contexto.
Atualmente, existem três soluções principais:
Usar ferramentas externas ao modelo para ajudar a processar textos longos
Otimização do cálculo do mecanismo de autoatenção
Métodos gerais de otimização de modelos
O dilema do "triângulo impossível" dos textos longos ainda não tem solução, mas isso também esclarece o caminho de exploração dos fabricantes de grandes modelos: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, de forma a processar informação suficiente, enquanto se leva em conta as limitações de cálculo de atenção e custo computacional.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
9 Curtidas
Recompensa
9
5
Repostar
Compartilhar
Comentário
0/400
metaverse_hermit
· 18h atrás
Progresso rápido na capacidade de leitura
Ver originalResponder0
Whale_Whisperer
· 18h atrás
Compreender o texto completo não é difícil
Ver originalResponder0
SelfSovereignSteve
· 18h atrás
Fiquei impressionado com a capacidade de processamento.
A capacidade de longo texto do grande modelo ultrapassa 400 mil tokens, impulsionando a aplicação da IA em áreas como finanças e direito.
Grande competição de capacidade de texto longo de modelos: de 4000 a 400.000 tokens, a "capacidade de leitura" da IA dispara
Os grandes modelos estão a melhorar a sua capacidade de processamento de longos textos a uma velocidade impressionante. Desde os iniciais 4000 tokens até aos atuais 400000 tokens, a capacidade de lidar com longos textos parece ter-se tornado um novo padrão para os fornecedores de grandes modelos.
A nível internacional, a OpenAI aumentou várias vezes o comprimento da entrada de contexto do GPT-3.5 de 4 mil para 16 mil tokens, enquanto o GPT-4 passou de 8 mil para 32 mil tokens. O seu concorrente Anthropic elevou o comprimento do contexto para 100 mil tokens. O LongLLaMA até expandiu o comprimento do contexto para mais de 256 mil tokens.
No âmbito nacional, a Kimi Chat, lançada pela startup de modelos grandes, Dark Side of the Moon, suporta a entrada de 200.000 caracteres chineses, cerca de 400.000 tokens. A tecnologia LongLoRA, desenvolvida em colaboração entre a Universidade Chinesa de Hong Kong e o MIT, pode expandir o comprimento do texto de um modelo de 7B para 100.000 tokens e de um modelo de 70B para 32.000 tokens.
Atualmente, muitas das principais empresas e instituições de pesquisa de grandes modelos, incluindo OpenAI, Anthropic, Meta e a Face Oculta da Lua, estão a focar na expansão do comprimento do contexto como uma direção de atualização prioritária. Essas empresas são geralmente bem vistas pelo mercado de capitais, com um rápido crescimento tanto na escala de financiamento quanto na avaliação.
As empresas de grandes modelos atribuem tanta importância à tecnologia de textos longos, o que significa a quebra de 400 mil tokens? À primeira vista, isso representa um aumento significativo na extensão do texto de entrada e na capacidade de leitura do modelo. Desde o início, quando apenas conseguia processar um artigo curto, até agora, quando pode ler um romance inteiro, os cenários de aplicação do modelo foram significativamente ampliados.
A um nível mais profundo, a tecnologia de longos textos está a impulsionar a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica. A capacidade de resumo de longos documentos, compreensão de leitura e perguntas e respostas é a chave para a modernização inteligente nessas áreas.
No entanto, assim como os parâmetros do modelo, o comprimento do texto não é necessariamente melhor quanto mais longo for. Pesquisas mostram que não há uma correlação positiva simples entre o comprimento do contexto suportado pelo modelo e o seu desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.
Atualmente, a exploração da tecnologia de longos textos ainda não atingiu um limite. Empresas de grandes modelos, tanto nacionais quanto internacionais, continuam a fazer avanços, e 400 mil tokens podem ser apenas o começo.
Por que as empresas de grandes modelos competem para "envolver" textos longos?
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que a limitação do comprimento de entrada dos grandes modelos está causando muitos desafios para a implementação de aplicações, e esta é precisamente a razão pela qual várias empresas estão focadas na tecnologia de textos longos.
Por exemplo, em cenários de personagens virtuais, devido à capacidade insuficiente de lidar com textos longos, os personagens virtuais podem esquecer informações importantes. Ao desenvolver jogos do tipo "murder mystery", a insuficiência no comprimento da entrada pode levar à redução de regras e definições, afetando o efeito do jogo. Nas áreas profissionais como direito e finanças, a análise e geração de conteúdo profundo também costumam ser limitadas.
Textos longos desempenham um papel importante nas futuras aplicações nativas de Agentes e IA. Os Agentes precisam confiar em informações históricas para planeamento e tomada de decisões, enquanto as aplicações nativas de IA necessitam de contexto para manter uma experiência do utilizador coerente e personalizada.
Yang Zhilin acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros, e o número de etapas de execução é o comprimento do contexto. A tecnologia de textos longos não só pode resolver alguns problemas iniciais dos grandes modelos, mas também é uma das tecnologias-chave para promover a implementação na indústria e nas aplicações.
Com o Kimi Chat recém-lançado pela Dark Side of the Moon, podemos ter um vislumbre das funcionalidades atualizadas dos grandes modelos na era dos textos longos:
Estas funcionalidades mostram que os chatbots estão a evoluir para direções mais especializadas, personalizadas e profundas, podendo tornar-se um importante motor para a concretização da indústria e o surgimento de super aplicativos.
O dilema do "triângulo impossível" em textos longos
Na tecnologia de texto longo, existe o dilema do "triângulo impossível" entre o comprimento do texto, a atenção e o poder computacional. Isso se manifesta em:
A raiz deste dilema reside no fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de autoatenção nesta estrutura faz com que a carga computacional cresça em um nível quadrático com o comprimento do contexto.
Atualmente, existem três soluções principais:
O dilema do "triângulo impossível" dos textos longos ainda não tem solução, mas isso também esclarece o caminho de exploração dos fabricantes de grandes modelos: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, de forma a processar informação suficiente, enquanto se leva em conta as limitações de cálculo de atenção e custo computacional.