Tag: 数据集

数据集-API模拟JavaSparkContext.wholeTextFiles

我们可以调用JavaSparkContext.wholeTextFiles并获取JavaPairRDD ,其中第一个String是文件名,第二个String是整个文件内容。 在Dataset API中是否有类似的方法,或者我所能做的就是将文件加载到JavaPairRDD然后转换为Dataset(这是有效的,但我正在寻找非RDD解决方案)。

如何将自定义Java类转换为Spark数据集

我无法找到一种方法将List的Test对象转换为Spark中的数据集这是我的类: public class Test { public String a; public String b; public Test(String a, String b){ this.a = a; this.b = b; } public List getList(){ List l = new ArrayList(); l.add(this.a); l.add(this.b); return l; } }

Spark:以编程方式获取集群核心数

我在纱线集群中运行我的火花应用程序。 在我的代码中,我使用数量可用的队列核心在我的数据集上创建分区: Dataset ds = … ds.coalesce(config.getNumberOfCores()); 我的问题:我如何通过编程方式而不是通过配置获得队列的可用数量?

解析从Java Web服务返回的.NET DataSet

我必须从Java应用程序中使用.NET托管的Web服务。 两者之间的互操作性通常非常好。 我遇到的问题是.NET应用程序开发人员选择使用.NET DataSet对象公开数据。 关于为什么不应该这样做以及它如何使互操作性变得困难,有很多文章写成: http://www.hanselman.com/blog/ReturningDataSetsFromWebServicesIsTheSpawnOfSatanAndRepresentsAllThatIsTrulyEvilInTheWorld.aspx http://www.lhotka.net/weblog/ThoughtsOnPassingDataSetObjectsViaWebServices.aspx http://aspnet.4guysfromrolla.com/articles/051805-1.aspx http://www.theserverside.net/tt/articles/showarticle.tss?id=Top5WSMistakes 我的问题是,尽管不推荐这种做法,但我不得不使用Web服务来返回带有Java的DataSet。 当你使用除.NET以外的任何东西为这样的东西生成代理时,你基本上会得到一个如下所示的对象: @XmlElement(namespace = “http://www.w3.org/2001/XMLSchema”, required = true) protected Schema schema; @XmlAnyElement(lax = true) protected Object any; 第一个字段是应该描述DataSet的实际模式。 当我使用Java中的JAX-WS和JAXB处理它时,它将所有XS-Schema作为Java对象引入,以便在此处表示。 走JAXB的对象树是可能的但不漂亮。 any字段表示由架构指定的架构中的DataSet的原始XML。 数据集的结构非常一致,但数据类型确实发生了变化。 我需要访问类型信息,架构因呼叫而异。 虽然我有几个选择,但似乎没有“好”的选择。 尝试在运行时使用JAXB从架构生成Java对象似乎是个坏主意。 这将太慢,因为它需要每次都发生。 暴力使用JAX-WS引入的JAXB对象遍历模式树。 也许不是使用JAXB来解析模式,而是更容易将其作为XML处理并使用XPath来尝试查找我需要的类型信息。 还有其他我没考虑过的选择吗? 是否有一个Java库可以轻松解析DataSet对象? 其他人可能有类似情况做了什么?

sparkContext JavaSparkContext SQLContext SparkSession之间的区别?

sparkContext, javaSparkContext, SQLContext和SparkSession什么SparkSession 。 有没有使用Sparksession转换或创建Context的方法? 我可以使用一个条目SparkSession完全替换所有Context吗? 是否在SQLContext中添加了SparkSession , SparkContext , JavaSparkContext等中的所有函数? 像parallelize这样的函数在SparkContext和JavaSparkContext有不同的用法。 如何在SparkSession使用这样的function? 如何使用SparkSession创建以下SparkSession ? RDD JavaRDD JavaPairRDD 数据集 有没有方法将JavaPairRDD转换为Dataset或Dataset到JavaPairRDD ?

将DefaultCategoryDataset强制转换为CategoryDataset

我正在尝试创建一个基本的条形图,当我编译它时会出现错误 线程“main”中的exceptionjava.lang.ClassCastException:org.jfree.data.category.DefaultCategoryDataset无法强制转换为org.jfree.data.CategoryDataset 这是我的代码 package barchart; import java.awt.Color; import java.awt.Dimension; import org.jfree.chart.ChartFactory; import org.jfree.chart.ChartPanel; import org.jfree.chart.JFreeChart; import org.jfree.chart.plot.PlotOrientation; import org.jfree.data.category.CategoryDataset; import org.jfree.data.category.DefaultCategoryDataset; import org.jfree.ui.ApplicationFrame; public class BarChartDemo extends public BarChartDemo(final String title) { super(title); final CategoryDataset dataset = createDataset(); final JFreeChart chart = createChart(dataset); final ChartPanel chartPanel = new ChartPanel(chart); chartPanel.setPreferredSize(new Dimension(500, 270)); setContentPane(chartPanel); } public […]

如何在JFreeChart中自定义CategoryPlot项的工具提示?

我需要更改图表绘图中绘制的条形图中默认工具提示的格式。 我不知道我看问题的方向是否正确。 我正在查看StandardCategoryToolTipGenerator类的默认格式 DEFAULT_TOOL_TIP_FORMAT_STRING = “({0}, {1}) = {2}” 我该如何重新定义这个值? 提前致谢。

数组插值(或两个)

我正在寻找一个java库或一些帮助来编写我自己的插值函数。 那是我有两个双打数组,可能有不同的大小,但是有序。 我需要能够估计中间值,并插入以使两个数组的大小相同。 事实上,插值中出现的点总数是2个数组大小减1的总和。但是,每个数组的范围必须保持不变,因此不需要外推。 例如。 a1 = [1,4,9,16,25,36]和a2 = [6,9,14,30] 结果可能是例如。 a1 = [1,2.25,5,2.65,9,12.25,16,25,36]和a2 = [6,6.5625,7.25,9,10.2625,11.25,14,25.25,30] 这些例子是f(x) = x^2 and g(x) = x^2 + 5 ,但是很容易就是任何多项式 – 这一点是能够从数据集中很好地估计/近似函数来提供足够的插值。 这里的x值只是输入数组的索引。 在输出中,只有y值很重要。

Java中的DataSet类?

有没有人知道Java中是否存在类似于.Net的DataSet类? 我熟悉EJB3和做数据的“java方式”。 但是,我仍然怀念数据库查询,xml和DataSet类提供的对象之间的无缝集成。 有没有人找到DataSet的Java实现(包括DataTable,DataRow等)? 编辑:如果有人有数据集的Java风格的教程,请分享链接。

DBUnit有没有办法自动创建表?

我刚刚意识到DBUnit本身并不创建表(请参阅如何使用纯JDBC和HSQLDB使用DBUnit进行测试而不会遇到NoSuchTableException? )。 DBUnit有没有办法从数据集或dtd自动创建表? 编辑:对于像HSQLDB这样的内存数据库的简单测试,可以使用粗略的方法来自动创建表: private void createHsqldbTables(IDataSet dataSet, Connection connection) throws DataSetException, SQLException { String[] tableNames = dataSet.getTableNames(); String sql = “”; for (String tableName : tableNames) { ITable table = dataSet.getTable(tableName); ITableMetaData metadata = table.getTableMetaData(); Column[] columns = metadata.getColumns(); sql += “create table ” + tableName + “( “; boolean first = true; for […]