LLM

LLM(Large Language Model,大语言模型) 是一种 基于人工智能(AI)和深度学习 的 自然语言处理(NLP)模型,能够理解、生成和处理人类语言。它是 GPT-4、ChatGPT、Claude、Gemini、Llama 这些 AI 的核心技术。

{{totalSubscript}} 订阅 ,132 游览
    0
    推荐
    25
    浏览
    大模型RAG(检索增强生成)
    RAG 是 "Retrieval-Augmented Generation"(检索增强生成)的缩写,是一种结合了`信息检索`和`生成式人`工智能的技术方法。它主要用于提升语言模型的性能,让模型在生成回答时能够利用外部知识库,而不是仅仅依赖预训练时的内部知识。具体来说,RAG 工作原理通常分为两步:1...
     半兽人 发布于昨天
    0
    推荐
    17
    浏览
    Byte-Pair Encoding,BPE是什么
    Byte-Pair Encoding(BPE,字节对编码)是一种分词(tokenization)方法,最初用于数据压缩,后来被广泛应用到自然语言处理(NLP)中,尤其是在大语言模型的分词器里。它的核心思想是通过统计字符或子词的出现频率,逐步合并最常见的一对(pair),生成一个更紧凑且灵活的词表。简...
     半兽人 发布于昨天
    0
    推荐
    40
    浏览
    BERT 模型是什么?
    BERT(Bidirectional Encoder Representations from Transformers)是一种由 Google 在 2018 年提出的自然语言处理(NLP)模型,它在当时彻底改变了语言模型的设计思路。名字里的几个关键词已经透露了它的特点:**双向**(Bidirec...
     半兽人 发布于昨天
    0
    推荐
    27
    浏览
    Embedding和分词器
    **Embedding 不是分词器(Tokenizer),但它们经常配合使用。** **1. 分词器(Tokenizer)和 Embedding 的区别** | **概念** | **作用** | **示例** ||----------|--------|---------|| **分词器(T...
     半兽人 发布于昨天
    0
    推荐
    19
    浏览
    大模型的token是什么?
    在自然语言处理(NLP)中,**token(标记)**是文本的最小单位,通常是一个单词、子词或字符。模型处理文本时,会将输入拆分成多个 token,并根据这些 token 进行计算和预测。例如,“I love you”这个句子可以被分割成三个token:“I”,“love”和“you”。token可...
     半兽人 发布于昨天
    0
    推荐
    20
    浏览
    什么是分词器
    **分词器(Tokenizer)** 是一种将文本拆分为 **token(标记)** 的工具。在自然语言处理(NLP)和大语言模型(LLM)中,分词器负责把输入文本转换成 **模型可以理解的最小单元**,通常是单词、子词或字符。 --- **为什么需要分词器?**计算机无法直接理解人类语言,它只能...
     半兽人 发布于昨天
1 / 1 跳转到