• 2017-03-16 17:28:53,本站原创
      现在全国各省正处于招聘的高峰期,面试者也越来越紧张,都希望有高人指点一二,倘若有面试题能提示一下,那面试能拿到offer的机会便大的多,下面就是一些常见的大数据面试题,希望能帮助你们一二。
    • 2017-03-16 17:25:05,本站原创
      在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这个问题的摸索和理解过程中,发现数据挖掘本身包含很多层次。并且模型本身也是存在传统和时髦之分的。本文就想聊聊这些话题。
    • 2017-03-16 17:14:17,本站原创
      数学方程式数学方程式不仅能够帮助人们解决知识上的问题,同时,从某种角度来看,它们本身也是非常美丽的。许多科学家都曾坦承,自己非常喜欢某些方程式,并不仅仅因其功能,更在于它们所表现出的那种简约而不简单、形式如诗句般优雅的美感。 这些方程式中,有一些声名显赫并为公众所熟识,比如爱因斯坦的质能方程:E = mc^2,但是在科学领域还有很多其它的美妙方程。
    • 2017-03-16 17:03:37,本站原创
      本篇内容来源于网络,因为工作需要,所以就去网上查找资料,顺便整理一下分享给大家,小红自己也是在学习阶段, 做这个公众号的目的也是为了输出自己学习的内容,一方面是为了自己更好的学习,另一方面希望能够帮助一些和我一样刚进入互联网行业的新人。 本篇分为用户画像的概念、如何搭建用户画像以及用户画像的步骤三部分。
    • 2017-03-16 16:43:30,本站原创
      数学是很难的科学,但因为它是科学家用数学来解释宇宙的语言,我们无可避免的要学习它。看看下面的这些GIF动图,它们提供了视觉的方式来帮助你理解各种数学技巧。
    • 2017-03-16 10:33:39,本站原创
      之前已经写过用LSTM来做分词的方案了,今天再来一篇用CNN的,准确来说是FCN,全卷积网络。其实这个模型的主要目的并非研究中文分词,而是练习tensorflow。本文就是练习一下如何用tensorflow处理不定长输入任务,以中文分词为例,并在最后加入了硬解码,将深度学习与词典分词结合了起来。
    • 2017-03-16 10:22:51,本站原创
      查词典方法和字标注各有各的好处,笔者一直在想,能不能给出一种只需要大规模语料来训练的无监督分词模型呢?也就是说,怎么切分,应该是由语料来决定的,跟语言本身没关系。说白了,只要足够多语料,就可以告诉我们怎么分词。 看上去很完美,可是怎么做到呢?《【中文分词系列】2.基于切分的新词发现》中提供了一种思路,但是不够彻底,而最近正好把这个思路补全了。因为没有查找到类似的工作,所以这算是笔者在分词方面的一点原创工作了。
    • 2017-03-16 10:08:25,本站原创
      上一篇文章谈到了分词的字标注法。在笔者看来,字标注法有效有两个主要的原因:第一个原因是它将分词问题变成了一个序列标注问题,而且这个标注是对齐的,也就是输入的字跟输出的标签是一一对应的,这在序列标注中是一个比较成熟的问题;第二个原因是这个标注法实际上已经是一个总结语义规律的过程。
    • 2017-03-16 09:57:45,本站原创
      在这篇文章中,我们暂停查词典方法的介绍,转而介绍字标注的方法。 值得一提的是,这种通过给每个字打标签、进而将问题转化为序列到序列的学习,不仅仅是一种分词方法,还是一种解决大量自然语言问题的思路,比如命名实体识别等任务,同样可以用标注的方法来做。
    • 2017-03-16 09:43:47,本站原创
      上一篇文章讲的是基于词典和AC自动机的快速分词。基于词典的分词有一个明显的优点,就是便于维护,容易适应领域。如果迁移到新的领域,那么只需要添加对应的领域新词,就可以实现较好地分词。当然,好的、适应领域的词典是否容易获得,这还得具体情况具体分析。本文要讨论的就是新词发现这一部分的内容。