盲听大赛又出牛人

阿斯兰君 · 发表于 2018-9-5 12:56

zhangzz2611 发表于 2018-9-5 09:27
汗，你都说每一次都是独立的，居然还能说出6次全中的概率是百分之五十，注意了，反驳你的是六次全中的概 ...

我从来就没说过全中的几率是50%好吧

阿斯兰君 · 发表于 2018-9-5 13:08

文学青年发表于 2018-9-5 12:22
我竟无语。。。。兄台此生遇到的数学老师实在是太高了。

这个不是跟层主玩吗，哈哈

vickapom · 发表于 2018-9-5 13:13

jerrybai2019 发表于 2018-9-2 17:52
有种就让他们听煲过的耳机和新耳机的差别。

这个比较容易

阿斯兰君 · 发表于 2018-9-5 13:40

本帖最后由阿斯兰君于 2018-9-5 18:38 编辑

独立是指这次的中和不中不影响到下次几率，并没有加入其他的条件或者前提，如果你加上其他什么记忆之类的那是另外一个话题，概率论本身就是要跟逻辑挂钩的。逻辑都不明还要扯上概率论，我上面一直是说反对引入简单的概率计算，因为概率是需要很完整的逻辑的和前提的，有的人甚至算出了1点几，另外我从来也没有说过没有金耳朵，但是试验品总数为2，只要是2选1，选6次，中6次，或者6中5的就一定是金耳朵了？那考试2选1选择题 6中6 6中5的都是学霸了，小学生个个都是学霸，你除了小学考试2选1，你到了大学还有2选1的选择题给你做？我也从来没有说要算总体概率的，我强调的是这个不适合去算总体统计概率，如果你要算那我还可以把总人数在加进去算，把机器数放进去算，是不是显得更低，更牛逼了，最后我能给你算出个万分之几几率2选1还6中6 6中5的，玩数字游戏有意思吗，显得自己有文化吗，事实就是事实，2选1的难度就是50%,每次都是独立的50%,你们只能说这个人准确率非常高，所以是金耳朵，而不能反过来去算，你们把一个事后的结果拿一个事前的概率论去计算，这个本身就有问题，概率论的完整性和严谨性基本都被抛之脑后了吧，当个数学题来做了，模具也不够啊，原来临床实验做6次就够了。谁告诉你我否认有金耳朵，我只是说这样的难度测试只是娱乐游戏而已

lotuschilde · 发表于 2018-9-5 16:34

作为一个半百的人，关于数字的学问早就还给老师了，但值得庆幸的是文科知识不会因为时光的流逝逐渐遗忘，反而会随着经历越来越充实。楼上的说法我在学术上虽然无法有半点回应，但却让我想起了很多成语。。。

阿斯兰君 · 发表于 2018-9-5 17:07

lotuschilde 发表于 2018-9-5 16:34
作为一个半百的人，关于数字的学问早就还给老师了，但值得庆幸的是文科知识不会因为时光的流逝逐渐遗忘，反 ...

好了，好了，

大家都出来装个逼就行了

唐润影音 · 发表于 2018-9-5 17:36

可以可以很OK

Ken2000 · 发表于 2018-9-5 17:50

真的佩服能拿到金耳朵的人，那是实力，不是靠蒙。靠蒙能拿到你可以去试试

阿斯兰君 · 发表于 2018-9-5 18:33

本帖最后由阿斯兰君于 2018-9-5 18:54 编辑

Ken2000 发表于 2018-9-5 17:50
真的佩服能拿到金耳朵的人，那是实力，不是靠蒙。靠蒙能拿到你可以去试试

人是肯定个牛人，但是这么小的样本测试随机性很大，娱乐测试而已，还要搞什么概率论出来反推，不是要算整体吗，那干脆在乘人数的总正确率，组合的可能性，线材的1/2统统都算上得出个几十万分之一的神人好了，那就是牛中之牛了，纯粹玩数字游戏，还不如直接说50%难度的测试里,进行6次正确率高达100%，硬要套个概率论数学什么去算给你看看。小学学的高中学的大学学的都跑出来了，以为算术题呢，概率论抛开逻辑或者是逻辑不严谨，都是不成立的，那为什么不能用最简单50%的选择几率去替代，我是不是也算金耳朵，？

sasawang · 发表于 2018-9-5 18:48

阿斯兰君发表于 2018-9-5 13:40
独立是指这次的中和不中不影响到下次几率，并没有加入其他的条件或者前提，如果你加上其他什么记忆之类的那 ...

对啊，所以解决问题用的是假设检验而不是简单的概率问题，这不需要先决条件，这事实际就是研究统计显著性的问题，建议稍微看一下假设检验的定义，专门就是针对这种问题设计的，普遍被接受的方法，确实总体样本量低，但是也确实到了能用假设检验的最低标准，这是有严格的数学证明的，而且确实不是什么小学中学问题，基本上是大学才会涉及到的问题。

我们研究的不是具体听对的几率是多少，而是这个几率与纯靠瞎蒙的几率是否有显著的不同，这就需要两个数据，一个是听对的几率，这个由整组数据带来，另外一个是纯靠蒙的概率，你就是对这个有质疑，从单次结果来看，只有两种选择，要么选a线，要么选b线。这就构成了一个二项分布，然后重复多次实验就成为了伯努利分布，这步逻辑清晰。下面就是对于单次正确与否的概率的定义，因为只有可能有四种结果分别是选a对，选a错，选b对，选b错，纯靠瞎猜的情况下，我认为是不对以上任何一种情况给予更高的权重(也就是选择没有偏好，不存在我就爱选某个选项)，这样一来单次正确率就能确定为50％
之后就是我上面的数学计算了。

另外这里的相互独立事件是否成立这是不用担心的，因为按照纯靠瞎猜的情况，前后两个问题的正确与否，完全独立，所以在这种情况下拒绝假设，那么就是真的拒绝了。

最后你所说的有人蒙对5次，6次这也是存在的，这在统计学里叫两类错误，你所说的这种特殊情况配上我的算法，是第一类错误，也就是拒真错误，这里就是明明靠瞎猜，却最后被认为金耳朵，这也是可以算概率的，实在是比较懒不想算了，你体会一下吧，即使再大的样本量也无法消除两类错误的发生概率，这里的样本量应该足够把这个概率压到1％以下了，所以应该可以了。

最后的最后，你说100个人里面就这么一个金耳朵，没准是正好靠第一类错误催生出来的那个人，确实可以这么理解，所以解决这个问题的最好方法是把所有人的数据统一起来一起计算，这样可以得出结论，但是这其实又犯了样本总体概念混淆的问题，我已上所做的计算纯粹为了证明这个人是不是金耳朵，而不是对于普遍大众线材是否可辩识，如果想研究后一个问题，那么久需要所有人的数据了。

阿斯兰君 · 发表于 2018-9-5 18:58

sasawang 发表于 2018-9-5 18:48
对啊，所以解决问题用的是假设检验而不是简单的概率问题，这不需要先决条件，这事实际就是研究统计显著性 ...

概率论要解决的问题

概率论是很古老的数学分支了——探讨的是不确定的问题，就是说，一件事情可能发生，也可能不发生。然后，我们要预计一下，它有多大机会会发生，这是概率论要解决的问题。这里面要特别强调概率和统计的区别，事实上这个区别在很多文章里面被混淆了。举一个简单的例子，比如抛硬币。那么我们可以做两件事情：

1.我们预先知道抛硬币的过程是“平衡的”，也就是说出现正面的机会和出现背面的机会都是50%，那么，这就是我们的概率模型——这个简单的模型有个名字——伯努利试验(Bernoulli trial)。然后，我们可以预测，如果我们抛10000次硬币，那么正面和背面出现的次数大概各在5000次左右。这种执因“测”果的问题是概率论要解决的，它在事情发生之前进行。

2.我们预先不知道抛硬币的过程遵循什么法则。于是，我们先去做个实验，抛10000次硬币，数一下正面和反面各出现了多少次。如果各出现了5000次，那么我们可以有很高的信心去认为，这是一个“平衡的”硬币。如果正面出现9000次，反面出现1000次，那么我们就可以基本认为这个硬币遵循一个严重偏向正面的非平衡法则——正面出现的概率是10%。这种执果溯因的事情是统计要解决的，它在事情发生之后进行，根据观察到的情况归纳背后的模型(Model)或者法则(Law)。

这篇文章只讨论概率论的问题。

经典概率的困难

什么是概率呢？长期以来，一个传统而直到今天还被广泛运用的概念是：概率就是一个事情发生的机会——这就是经典概率论的出发点和基础。大部门的初等概率论教科书，给出一个貌似颇为严谨的定义：我们有一个样本空间(sample space)，然后这个样本空间中任何一个子集叫做事件(event)，我们给每个事件A赋一个非负实数P(A)。如果P(A)满足

P(A) >= 0
全集（整个样本空间）的P值为1
对于（有限个或者可数个）互不相交的事件，它们的并集的P值等于各自P值的和。这个属性叫可数可加性 (Countable Additivity)

那么我们就称P为概率。这个定义，以及由此而演绎出来的整个经典概率体系，广为接受并被成功用在无数的地方。

但是，这样的定义藏着一个隐蔽很深的漏洞——使得从这个定义出发能在数学上严格导出互相矛盾的结果。假设样本空间是S=[0, 1]，里面的实数依循均匀分布，我们构造这样一个集合。首先，建立一个等价关系：相差值是有理数的实数是等价的。依据这个等价关系，把0到1之间的实数划分为等价类，这样我们有无数个等价类。从每个等价类中随便抽出一个实数作为代表，这些代表构成一个集合，记为H。（注意：我们有不可数无限个等价类，因此这个集合的存在依赖于选择公理(Axiom of Choice))

那么P(H) 是什么呢？如果P(H)等于零，那么P(S) = 0；如果P(H) > 0，那么P(S) = 无穷大。无论如何，都和P(S) = 1的要求矛盾。这下麻烦大了，我们一直依赖的概率定义竟然是自相矛盾的！

也许，从数学家的眼光看来，这个问题很严重。但是，这对于我们有什么意义呢。我们一辈子都用不着这种只存在于数学思辨中的特殊构造的集合！不过，即使我们从实用出发不顾及这类逻辑漏洞，传统概率论还是会给我们带来一定程度的麻烦。

一个问题，可能大家都有所感觉。那就是，我们在本科学习的概率论中有着两套系统：离散分布和连续分布，基本什么定理都得提供这两种形式，但是它们的推导过程似乎没什么太大差别，一个用求和一个用积分而已。几乎一样的事情，为什么要干两遍呢。

还有，那种离散和连续混合的分布又怎么处理呢？这种“离散连续混合的分布”不仅仅是一种理论可能，在实际上它的应用也在不断增长。一个重要的例子就是狄里克莱过程(Dirichlet Process)——它是learning中的无限混合模型的核心——这种模型用于解决传统有限混合模型中(比如GMM)子模型个数不确定的难题。这种过程，在开始时(t = 0)通常是连续分布，随着时间演化，在t > 0时变成连续和离散混合分布，而且离散部分比例不断加重，最后（几乎必然）收敛到一个离散分布。这种模型用传统的连续和离散分离的处理方式就显得很不方便了。

事实上，我们是可以把对连续模型，离散模型，以及各种既不连续也不离散的模型，使用一种统一的表达。这就是现代概率论采取的方式。

现代概率论——从测度开始

现代概率论是前苏联大数学家Kolmogorov在上世纪30年代基于测度理论(Measure theory)的基础上重新建立的，它是一个非常严密的公理化体系。什么是测度呢？说白了，就是一个东西的大小。测度是非负的，而且符合可数可加性，比如几块不相交的区域的总面积，等于各自面积之和。这个属性和概率的属性如出一辙。测度理论自从勒贝格(Lebesgue)那个时候开始，已经建立了一套严格的数学体系。因此，现代概率论不需要把前辈的路子重新走一遍。基于测度论，概率的定义可以直接给出：

概率就是总测度（整个样本空间的测度）为1的测度。

测度理论和经典概率论有个很大的不同，不是什么集合都有一个测度的。比如前面构造的那个奇怪的集合，它就没有测度。所以，根据测度理论，样本空间中的集合分成两种：可测的(measurable)和不可测的。我们只对可测集赋予测度或者概率。特别留意，测度为零的集合也是可测的，叫做零测集。所谓不可测集，就是那种测度既不是零，也不是非零，就是什么都不能是的集合。

因此，根据测度理论，我们描述一个概率空间，需要三个要素：一个样本空间，所有可测集（它们构成sigma-代数：可测集的交集，并集和补集都是可测的)，还有就是一个概率函数，给每个可测集赋一个概率。

通过引入可测性的概念，那种给我们带来麻烦的集合被排除在外了。不过，可测性的用处远不仅仅是用于对付那些“麻烦集合”。它还表达了一个概率空间能传达什么样的信息。这里暂时不深入这个问题，以后要有机会写到条件概率(conditional probability)和鞅论(Martingale theory)时，再去讨论这个事情。这里只是强调一下（虽然有点空口说白话），可测性是讨论随机过程和随机分析的非常重要的概念，在实际计算和推导中也非常有用。

我们看到，这套理论首先通过可测性解决了逻辑上的漏洞。那怎么它又是怎么统一连续和离散的表达的呢？这里面，测度理论提供了一个重要的工具——勒贝格积分(Lebesgue Integral)。噢，原来是积分，那不也是关于连续的么。不过，这里的勒贝格积分和在大学微积分课里面学的传统的积分（也叫黎曼积分）不太一样，它对离散和连续通吃，还能处理既不离散又不连续，或者处处有定义而又处处不连续的各种各样的东西）。

举一个简单例子，比如定义在[0, 1]的函数，它在[0, 0.5)取值为1，在[0.5, 1]取值为2。这是一个简单的阶梯函数，期望是1.5。按照传统的黎曼积分求期望，就是把定义域[0, 1]分成很多小段，然后把每小段加起来。勒贝格积分反其道而行之，它不分定义域，而是去分值域，然后看看每个值对应的那块的面积（测度）是多大。这个函数取值只有两个：1和2。那么值为1那块的面积为0.5，值为2的那块的面积也是0.5，积分就是以这些值为系数，把对应的面积加起来：0.5 x 1 + 0.5 x 2 = 1.5。

上面是连续的情况，离散的呢？假设我们在一个离散集[0, 1, 2]上定义一个概率，P(0) = 0.5, P(1) = P(2) = 0.25。对一个函数f(x) = x，求均值。那么，我们看到，值为0, 1, 2对应的测度分别是0.5, 0.25, 0.25，那么我们按照“面积加权法”可以求出：0 x 0.5 + 1 x 0.25 + 2 x 0.25 = 0.75。

对于取值范围连续的情况，它通过取值有限的阶梯函数逼近，求取上极限来获得积分值。

总体来说，勒贝格积分的idea很简单：划分值域，面积加权。不过却有效解决了连续离散的表达的统一问题。大家如果去翻翻基于测度理论建立起来的现代概率论的书，就会看到：所谓“离散分布”和“连续分布”的划分已经退出历史舞台，所有定理都只有一个版本——按照勒贝格积分形式给出的版本。对于传统的离散和连续分布的区别，就是归结为它们的测度函数的具体定义不同的区别。

那我们原来学的关于离散分布的点概率函数，或者连续分布的概率密度函数，也被统一了——积分的反操作就是求导，所以那两个函数都叫成了测度积分的“导数”，有一个名字Radon-Nikodym Derivative。它们的区别归结为原测度的具体不同，点概率函数是概率测度相对于计数测度的导数，而概率密度函数则是概率测度相对于勒贝格测度的导数。

我们看到，现代概率论建立了测度概念和概率概念的联系：

测度 ———— 概率
积分 ———— 期望

谁是基础？概率 vs. 期望

从上面的介绍看来，似乎概率（测度）是一个更基本的概念，而期望（积分）是从那引申出来的概念。实事上，整个过程可以反过来，我们可以把期望作为基本概念，演绎出概率的概念。整个概率论，也由此基于期望而展开——其实，如果不是历史惯性，整套理论叫做“期望论”也挺合适的，呵呵。关于这个事情，以后有机会，再做一个更详细的探讨。这里，由于篇幅原因，只提出两个关键点：

有了这么三条，我们可以抛开概率，先定义“期望”这个概念：定义在可测集合上的单调线性实函数。然后，再把指示函数的期望定义成概率。那么，期望就变成了一个更为基本的概念。

事实上，某些新出来的现代概率论的教科书已经处理得更为简洁：直接把“期望”和“概率”看成同一个概念——同时，把几个集合的指示函数和那个集合本身看成一回事。相比于把期望和概率分成两个不同的东西来处理，很多事情的描述和演绎变得非常简洁，而又不损失任何严密性（预先给出期望和概率的一致性的一个严格证明，大概思路是上面三点，不过数学上有一些处理）。由于，把期望视为线性函数，因此对于某个随机变量的期望就变成了有点类似于随机变量和测度的一种类似于“内积”的双线性运算结构。很多本来复杂的概率推演就转化为线性代数演算——不但使得演绎更为方便简洁，而且有助于对于结果的代数特性的更深刻的理解。

总而言之，从经典概率论到现代概率论，发生了两个非常重要的变化：

1.测度的引入——解决了基础逻辑的难题，统一了离散分布和连续分布。

2.期望的基础地位——一定程度上消弭了概率和期望的区别，同时把很多概率问题“代数化”。

阿斯兰君 · 发表于 2018-9-5 19:07

sasawang 发表于 2018-9-5 18:48
对啊，所以解决问题用的是假设检验而不是简单的概率问题，这不需要先决条件，这事实际就是研究统计显著性 ...

我前面说过了总数只有2个样本，进行6次2选1，样本太小，在事后进行概率统计作为参考毫无意义

hatv · 发表于 2018-9-5 19:07

其实简单事情搞复杂化了，就像猜硬币正反，随机抛6次，在某一阶段连续对6次的几率还是比较大的，这样的纯靠猜游戏相信很多人都连续猜对过。毕竟每次都有50%的机会猜中，而且6次连续并不算多。但要是想连续猜中20次，估计很少有人实现过。所有个人也觉得6次的随机性比较大，有可能一半听一半蒙都有可能，恰恰当天运气又比较好，所以6次反正个人觉得略少。当然我并不否认线材的作用和区别，还有一些人会说你行你上的人，套用一句俗话，那我说空调不好用我还得会制冷了？我说鸡蛋不好吃我还得会下蛋了？

阿斯兰君 · 发表于 2018-9-5 19:13

sasawang 发表于 2018-9-5 18:48
对啊，所以解决问题用的是假设检验而不是简单的概率问题，这不需要先决条件，这事实际就是研究统计显著性 ...

我并不是像说这两个人不是金耳朵，甚至我想说有可能其他参赛者也是金耳朵，只是测试方法的不足导致他们被淘汰了，因为样本太少，随机性过大，这个只是个测试游戏加大派送的活动，真当评选金耳朵神马的还是算了。我也试过类似很多这样的2选1的试听，实际2选1难度确实不是太高，也许多这两位来说是小儿科了，3选 4选材是真正的考验

sasawang · 发表于 2018-9-5 19:17

阿斯兰君发表于 2018-9-5 19:13
我并不是像说这两个人不是金耳朵，甚至我想说有可能其他参赛者也是金耳朵，只是测试方法的不足导致他们被 ...

确实这个发生第二类错误的概率不小，也就是你说的有金耳朵被筛下去了，确实有这个问题，确实测试方法有待改进，他是两个6次的测试，确实有点尴尬，要变成12次基本上就可以确定统计显著性了，在严格一点的要求可能就要50次以上的测试了。

wzchen · 发表于 2018-9-5 20:04

本帖最后由 wzchen 于 2018-9-5 20:46 编辑

从统计学角度讲，5-7次是比较合理的，再多，意义不大，如果是4次的话，4次全对靠蒙对的概率是1/16，即6.25%，犯错的概率大于5%的概率统计试验是被认为没有意义的，而5次全蒙对的概率是1/32（3.125%），6次是1/64(1.5625%)，统计学上，属于显著差异，也就是试验是可靠的，而7次全部蒙对的话是1/128（0.78125%)，在统计学上，错误概率小于1%的，属于高度显著差异了，被认为是非常可靠的试验了。所以，不管是5次全对，还是6次全对，都应该算金耳朵了，如果是7次全对的话，应该算白金耳朵了。不过，因为6次蒙对5次的概率是6/64，即9.375%，7次蒙对5次的概率为21/128（16.4%），7次蒙对6次的概率为7/128（5.47%），均大于5%，所以都不能算是金耳朵。

_天行健 · 发表于 2018-9-5 20:13

阿斯兰君发表于 2018-9-5 19:07
我前面说过了总数只有2个样本，进行6次2选1，样本太小，在事后进行概率统计作为参考毫无意义

确实是这个道理，很简单的逻辑，为什么现在各类考试的出题至少是5、60道甚至上百道题，而且现在基本都是计算机考试都是选择题，选择题的选择项为什么最少有4项而不是2项，

如果选择题只选2个中的1个，那这种随便上去一个文盲很可能都能考及格，因为2选1这种非人为主观性判断的正确率实在太高了，随便蒙就是50%的概率，这种方式测试考出来的结果显然没有任何参考意义，

而且总题目为什么要出几十道而还不是只有5、6道，很显然的道理，无论是测试的选择组数还是测试的次数都远远没有达到最基本科学严谨的要求标准，这种测试结果只能说看看就好,实际是完全经不起推敲的。

elfsikki · 发表于 2018-9-5 20:32

每年的盲听大赛都会出牛人！

阿斯兰君 · 发表于 2018-9-5 21:22

sasawang 发表于 2018-9-5 19:17
确实这个发生第二类错误的概率不小，也就是你说的有金耳朵被筛下去了，确实有这个问题，确实测试方法有待 ...

怎么改进呢，提升难度让大家都选错？本来就是想让大家觉得线跟线是有区别的，然后加一个派送弄出来的奖项，打个线材广告，反正金耳朵也没有一个标准，只是这种难度的金耳朵，含金量低而已。我开始也只是想表达个几率是50%，而且是独立的，这个人肯定是高手,但是此难度根本不足以来体现牛在哪里。几个人就跑出来扯概率学了，简单套了个公式就以为对的，50%是绝对值？固定值？平均值？不确定？兄台还知道拿之前的样本说明，但是我认为这个样本太少了，如果一定要算概率，其实我认为最合理的算法是当时所有人的正确率来做一个难度基准，在这个难度下的牛人成功率达到了多少更有说服力，如果难度系数低说明这个牛是有引号的，如果难度系数高则说明此人确实是百里挑一的水平，而不是反过来说明他能全蒙对的几率有多小，没有基础值的概率论也只个瞎论

sus · 发表于 2018-9-5 21:24

这听力真是佩服

帐号		自动登录	找回密码
密码			-注册-