已找到以下 10000 条记录
  • HMM实现中文分词

    import numpy as np import warnings from hmmlearn.hmm import MultinomialHMM as mhmm data=[{ u"我要吃饭":"SSBE"}, { u"天气不错" : "BEBE"}, { u"谢天谢地"

    作者: 毛利
    发表时间: 2021-07-15 01:20:58
    1673
    0
  • 【java蓝桥杯_历届真题】密码发生器

    不好记的密码,又担心自己也会忘记;如果写在纸上,担心纸张被别人发现或弄丢了...   这个程序的任务就是把一串拼音字母转换为6位数字(密码)。我们可以使用任何好记的拼音串(比如名字,王喜明,就写:wangximing)作为输入,程序输出6位数字。   变换的过程如下:   第一步

    作者: 昵称:
    发表时间: 2022-03-09 09:43:43
    313
    0
  • Py之zhon:zhon库的简介、安装、使用方法之详细攻略

    1、在字符串中查找CJK字符、验证拼音音节、单词或句子:   zhon库的简介          Zhon是一个Python库,它提供了中文文本处理中常用的常量。 包括常用常量: 中日韩文字和部首中文标点符号汉语句子规则表

    作者: 一个处女座的程序猿
    发表时间: 2021-03-26 16:36:46
    849
    0
  • OpenCart电商搭建指导(含中文包安装)

    根据操作指导一步步安装。(本文根据笔者实际操作,提供一种安装中文包的指导,详细如下)好了,开始安装中文包!首先请下载笔者已经找的中文包,见本篇文章的附件(oc3x.ocmod.zip),解压缩,可以看到两个目录(admin、catalog)。这两个目录里面分别是网站前台、后台的中文包,需要上传至网站的服务器对应

    作者: 风风火火就是我
    发表时间: 2018-04-12 15:29:44
    13445
    1
  • APP算法展示中文乱码解决方法

    算法输出结果在SIMS上显示中文乱码,其原因为:GB2312对汉字采用双字节编码,即中文占用2个字符,用户需要将中文转换成16进制字符编码。比如:“置信度”三个字的GB2312字符编码为: 1. 用户需要自定义一个unsigned char数组,保持转义后的中文字符,并将数组内容作为S

    作者: HelloHolos
    4108
    0
  • 部署Atlas200DK运行手写汉字识别样例

    les/blob/master/cplusplus/environment二、    打开样例及模型准备用MindStudio直接打开手写汉字识别样例将下载好的模型及权重文件保存到项目中的model文件夹选择模型转换选择模型MindStudio会自动选择同一目录下的权重文件点击N

    作者: 海中之龙
    5708
    1
  • php 正则中文匹配

    本文章总结了php中利用正则表达式来匹配中文的一些实例函数,有需要的朋友可参考参考。 我们先要明白 中文双字节字符编码范围 1. GBK (GB2312/GB18030) x00-xff GBK双字节编码范围 x20-x7f ASCII xa1-xff 中文 gb2312 x80-xff 中文 gbk 2

    作者: Lansonli
    发表时间: 2021-09-28 17:17:09
    1270
    0
  • Ubuntu 18.04.3 更改系统语言为简体中文

    Ubuntu是一个以桌面应用为主的Linux操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu"一词,意思是“人性”“我的存在是因为大家的存在",是非洲传统的一种价值观。Ubuntu基于Debian发行版和Gnome桌面环境,而从11.04版起,Ub

    作者: 兮动人
    发表时间: 2021-10-24 14:47:28
    919
    0
  • Python 中文编码

    现象描述 我们用 Python 输出 “Hello, World!”,英文没有问题, 但是如果你输出中文字符”你好,世界”就有可能会碰到中文编码问题。 Python 文件中如果未指定编码,在执行过程会出现报错: #!/usr/bin/python print

    作者: 小工匠
    发表时间: 2021-09-10 15:08:41
    590
    0
  • java中如何对汉字进行排序?

    不过在文章的最后,我故意留了个问题:“若姓名是汉字,我们上篇文章的方法还可以进行排序吗?”答案是不可以的,今天,我们就这个问题展开阐述! 汉字按照首字母的先后顺序排序 首先我们在上篇文章的代码基础上,把集合的值(name)改成汉字的名称(毕竟学生的姓名哪有叫什么a、b、c的),代码如下:

    作者: 穆雄雄
    发表时间: 2022-12-12 12:20:58
    70
    0
  • &#X开头的文本,怎么转换为汉字

    今天查询hive中的数据发现一个问题,hive客户端查询显示是&#x开头的乱码,查看原数据库中也

    作者: 数据社
    发表时间: 2022-09-24 19:24:10
    161
    0
  • 两天速成emwin教程集合

    2天速成实例教程010_Menu标题菜单控件使用方法 2天速成实例教程011_Multipage多页控件使用方法 2天速成实例教程012_基于STM32单片机的全键盘中文汉字拼音输入法 2天速成实例教程013_修改BUTTON按钮等控件背景皮肤颜色_SetBkColor 2天速成实例教程014_BMP位图图片显示以及位图皮肤的使用方法

    作者: JeckXu666
    发表时间: 2022-01-17 15:04:21
    724
    0
  • GaussDB100 索引

    如果要找username=’abc’的数据呢,userid的索引就不好用了,需要使用username的索引了。这就好比你只知道汉字的写法就不能使用拼音检索,而只能用部首查字法了

    作者: Gauss100吴彦祖
    1735
    0
  • 语音识别解决方案

    OBS的wav语音文件转化为文字,并将结果存放到指定对象存储服务 OBS桶。该方案可以将用户上传在对象存储服务 OBS的语音文件识别成可编辑的文本,支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方言(四川话、粤语和上海话)的识别。适用于如下场景:识别客服、客户的语音,

  • [Python人工智能] 二十七.基于BiLSTM-CRF的医学命名实体识别研究(下)模型构建

    )模型构建 一.生成映射字典 接下来需要将每个汉字、边界、拼音、偏旁部首等映射成向量。所以,我们首先需要来构造字典,统计多少个不同的字、边界、拼音、偏旁部首等,然后再构建模型将不同的汉字拼音等映射成不同的向量。 在prepare_data.py中自定义函

    作者: eastmount
    发表时间: 2022-01-07 07:12:22
    2567
    0
  • 中文NLP基础:汉语语言文字认识(一)

    首先介绍一个网站,看名字你就知道它是做什么用的:象形字典 www_dot_vividict_dot_com总结中文的造字方法的最重要的成果就是六书。它根据汉字的构成和使用方式归纳成的六种模式,总称为六书。六书是指:“象形”、“指事”、“会意”、“转注”、“假借”、“形声”。以许慎

    作者: 黄生
    22
    2
  • 中文分词介绍

    汉语自然语言处理的第一个部分是中文分词。(Chinese Word Segmentation)英文没有这个问题。因为英文序列中,词和词之间都有空格....如果涉及到未标点的古文,还要断句。ohmygod而中文分词的算法,可以分为二大类。基于条件随机场(CRF)的基于张平华NSho

    作者: 黄生
    34
    5
  • 新手语音入门(三): 语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素

    模型的处理,一个模型是声学模型,一个模型是语言模型。声学模型通过处理编码得到的向量,将相邻的帧组合起来变成音素,如中文拼音中的声母和韵母,再组合起来变成单个单词或汉字。语言模型用来调整声学模型所得到的不合逻辑的字词,使识别结果变得通顺。两者都需要大量数据用来训练。 图3 语言模型处理过程

    作者: 黄辣鸡
    发表时间: 2021-12-27 07:11:12
    4152
    0
  • Centos 中文乱码问题解决

    报表中发现有中文乱码和中文字体不整齐(重叠)的情况,首先考虑的就是操作系统是否有中文字体,在CentOS 7中发现输入命令查看字体列表是提示命令无效:  如上图可以看出,不仅没有中文字体,连字体库都没有,那么接下来就记录一下在Linux

    作者: 隔壁老汪
    发表时间: 2022-06-23 17:19:33
    250
    0
  • 非聚集索引区别

    录在数据页中的指针方式。非聚集索引层次多,不会造成数据重排。非聚集索引类似在新华字典上通过偏旁部首来查询汉字,检索表也许是按照横、竖、撇来排列的,但是由于正文中是a~z的拼音顺序,所以就类似于逻辑地址于物理地址的不对应。同时适用的情况就在于分组,大数目的不同值,频繁更新的列中,这些情况即不适合聚集索引。

    作者: 超级蛋蛋
    433
    0