API定价

普通接口的 GPT-4 是涨价了 30倍以上,

官方

 

个人博客总结

 

这个token是什么意思呢?

什么是Token?

理解自然语言(NLP)在中间,token是指一组相关的字符序列,例如单词或标点符号。

NLP的主要任务是将文字分解成token,因为它是语义分析、命名实体识别和计算机翻译等其他任务的前提。

token可以是文本搜索中的单词、数据、标点、单独的英文字母或其它可以作为文本挖掘的单独元素。

通常情况下,token的界限是根据空格符、标点和其他特殊的划分标记来确定的。

例如,在下面的句子中,标点符和空格符被用来溶解不同类型的token。:

"我喜欢吃冰淇淋。"

每个中国汉字和标点符号都可以在这个句子中分离成一个token。

但是,一个字一个字地理解整个句子的含义,很可能反而会理解偏差。

例如“冰淇淋”,就是一个完整的词,分为“冰”、“淇”、“淋”三个字反而很难理解。

类似地,在NLP中,token也可以是比单词更高级别的语言单位,例如句子或句子。

例如,对于句子token,“红苹果”可以称之为token,而不是独立的“鲜红”和“苹果”token。

因为有不同类型的分割方法,所以“红苹果”需要切割成“红”、“鲜红”、“苹果”、“水果”、“红苹果”等多个token来理解。

理解token这一概念在处理文本时非常重要,因为它是许多文本挖掘日常任务的前提。NLP优化算法将使用token来建立文本表达方式,了解自然语言理解,便于进行其他分析日常任务。

因此,对于NLP系统软件来说,选择合适的中文分词方法。(tokenization)这一点非常重要,它会影响到另一项日常任务的准确性和质量。

ChatGPT API的价格

回去看看ChatGPT API[1],

“$0.002 per 1k tokens”

在英语中“一个” token 一般来说,匹配大概 4 “字符”,而一个中国汉字大概有2~2.5个token。

1000 tokens应该是750个英语单词。换言之,大约2美元可以问100万个token,相当于750000个字。750,000个英语单词只需不到15元钱rmb,与人民文学家相比,已经足够划算了!

当然,虽然100万只token看起来很多。但是事实上,推送一段API回应的文字可能会消耗很多token。

根据大家积累的经验,基本上一个问题需要花费100~200个token,其实很多,尤其是在持续对话中。为了保持对话的持续性,每次都要发送数据和历史信息,输入需要计算。 token 算钱,满打满算,按量付费其实并不便宜。

假如你想查一串指定的文字到底要花多少钱(钱) ),官网还提供了一种在线查询计算方法,有兴趣的可以看看。[2]https://platform.openai.com/tokenizer

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。