Tag: statistics

如何使用solrj 4.9.0提取stats组件

我有这样的solr查询 q=categories:cat1 OR categories:cat2&stats=true&stats.field=count&stats.facet=block_num 基本上,我想通过块num得到sum(count)组。 此查询适用于浏览器。 但是使用solrj,我无法从Response obj访问stats字段。 我可以做一个response.getFieldStatsInfo()。 但这不是我想要的。 这是我构建查询的方式 SolrQuery query = new SolrQuery(q); query.add(“stats”, “true”); query.add(“stats.field”, “count”); query.add(“stats.facet”, “block_num”); 使用调试器,我可以看到响应具有私有statsInfo对象,并且它具有我正在寻找的信息。 但是没有api可以访问该对象。 我想知道是否有 查询solrj以外的solr服务器的更好方法(curl?你如何解析响应? 构建查询的更好方法。 也许使用组而不是统计? 一种在查询响应()中访问隐藏的statsInfo对象的方法? [太沮丧了。 我可以在调试器的私有obj中看到我需要的所有信息!] 谢谢!

使用Apache Commons Math确定置信区间

我有一组基准数据,我使用Apache Math Commons计算汇总统计数据。 现在我想使用包来计算例如运行时间测量的算术平均值的置信区间。 这有可能吗? 我确信该软件包支持这一点,但是我不知道从哪里开始。 这是我在Brent Worden建议的帮助下最终使用的解决方案: private double getConfidenceIntervalWidth(StatisticalSummary statistics, double significance) { TDistribution tDist = new TDistribution(statistics.getN() – 1); double a = tDist.inverseCumulativeProbability(1.0 – significance / 2); return a * statistics.getStandardDeviation() / Math.sqrt(statistics.getN()); }

如何使用Spark DataFrame计算Cassandra表的汇总统计量?

我试图得到一些Cassandra / SPARK数据的最小值,最大值,但我需要用JAVA来做。 import org.apache.spark.sql.DataFrame; import static org.apache.spark.sql.functions.*; DataFrame df = sqlContext.read() .format(“org.apache.spark.sql.cassandra”) .option(“table”, “someTable”) .option(“keyspace”, “someKeyspace”) .load(); df.groupBy(col(“keyColumn”)) .agg(min(“valueColumn”), max(“valueColumn”), avg(“valueColumn”)) .show(); 编辑显示工作版本:确保“围绕someTable和someKeyspace

在Java lambda中使用两个流来计算协方差

假设我有两个double数组。 我一直在尝试使用Java 8中的Stream。我想我已经理解了主要的想法,但后来我意识到我不确定如何同时操作两个Streams。 例如,我想计算两个数组的协方差。 public class foo { public static double mean(double[] xs) { return Arrays.stream(xs).average().getAsDouble(); } public static void main(String[] args) { double[] xs = {1, 2, 3, 4, 5, 6, 7, 8, 9}; double[] ys = {1517.93, 1757.78, 1981.1, 2215.73, 2942.66, 3558.32, 4063.91, 4521.16, 5101.76, 5234.12}; System.out.println(“Mean of xs: ” + mean(xs)); double […]

在java中使用R编程

我们正在开发一个关于Java的复杂统计项目。 我们用R编程语言编写了原始代码。 有没有办法将此代码转换为Java代码(转换器)或者我们如何在Java项目中使用R ?

从JAVA调用R以获得卡方统计和p值

我在JAVA中有两个4 * 4矩阵,其中一个矩阵保存观察计数和其他预期计数。 我需要一种自动的方法来计算这两个矩阵之间的卡方统计量的p值; 但是,就我所知,JAVA没有这样的function。 我可以通过将两个矩阵读成R作为.csv文件格式来计算卡方和它的p值,然后使用chisq.test函数,如下所示: obs<-read.csv("obs.csv") exp<-read.csv("exp.csv") chisq.test(obs,exp) 其中.csv文件的格式如下: A, C, G, T A, 197.136, 124.32, 63.492, 59.052 C, 124.32, 78.4, 40.04, 37.24 G, 63.492, 40.04, 20.449, 19.019 T, 59.052, 37.24, 19.019, 17.689 给定这些命令,R将给出格式的输出: X-squared = 20.6236, df = 9, p-value = 0.01443 其中包括我正在寻找的p值。 有谁知道自动化过程的有效方法: 1)将我的矩阵从JAVA输出到.csv文件中2)将.csv文件上传到R 3)将.csv文件上的chisq.test调用到R中4)将输出的p值返回到JAVA? 谢谢你的帮助….