• K1_228332
    了解作者
  • 21.4KB
    文件大小
  • zip
    文件格式
  • 0
    收藏次数
  • VIP专享
    资源类型
  • 0
    下载次数
  • 2022-06-14 12:44
    上传日期
数据管道 ##说明:要运行该程序,只需执行Main.java ##设计摘要: 应用程序提供3个不同的阶段(1)提取(2)转换-未实现(3)加载 提取程序和加载程序之间的通信是通过阻塞队列进行的-“提取程序”加载队列,“加载程序”将其清空 “ Extractor”负责从外部数据源中提取数据,并将其作为json对象排队,以供Loader使用。 提取器可以可选地实例化转换提取的数据的Transformer对象(未实现)。 “ Transformer”(未实现)可以封装有助于将提取的数据转换为装入所需格式的转换规则。 “加载程序”从队列读取并写入目标存储。 应用程序从一个运行“ Extractor”的线程和一个运行“ Loader”的线程开始,然后将它们传递给一个公共队列对象进行通信。 提取器和加载器都使用适配器模式-因此,可以实现不同的适配器来从不同的数据源提取数据并将其写到不同的数
DataPipeline-master.zip
内容介绍
# Data Pipeline ##Instructions: To run the program just execute Main.java ##Design Summary: * Application offers 3 distinct stages (1) Extract (2) Transform -- not implemented (3) Load * Communication between Extractor and Loader is via a Blocking Queue -- "Extractor" Loads the Queue & "Loader" empties it * "Extractor" is responsible for extracting data from external data source and enqueue it as json object for Loader to consume. Extractor may optionally instantiate Transformer object (not implemented) which transforms extracted data. * "Transformer" (not implemented) may encapsulate transformation rules that help convert extracted data into format desired for Loading. * "Loader" reads from the queue and writes to destination store. * Application starts with one thread running "Extractor" and one thread running "Loader" and passes them a common queue object to communicate. * Both Extractor & Loader use Adapter Pattern -- Thus Different Adapters may be implemented to extract data from different data sources and written out to different data stores * This project provides "WikiDataInputAdapter" for reading WikiData and "FileOutputAdapter" to write to filesystem in Json Format. ##Improvements Required: * Resource names and run-time parameters are currently hard-coded in application. These HAVE TO BE pulled out into a configuration file and passed into objects as properties or have seperate properties files for adapters. * Extraction is I/O heavy and makes several Http Calls to reterieve data. The Executor implements runnable interface hence multiple threads (with smaller exclusive queries) may be used to parallelize extraction activity. Blocking Queue is thread-safe thus this design works. Local Optimizations have been made to make all Movie Requests in a batch in async mode, All Item de-references within a movie is also done asynchronously. ##Current Hard-coded Parameters * Queue Size between Extractor / Loader ==> 100 items Extractor: * Extraction Query -- All English Movies: "https://wdq.wmflabs.org/api?q=claim[31:11424]%20AND%20claim[364:1860]" * Batch Size for Single Extract/Load --> 10 records * Blocking Timeout for Extractor --> 5 secs (in case Loader is unable to load fast enough) and then loops until input exists Loader: * Max File Size : (99999 + 2) characters * Blocking Timeout: 10 seconds and upto 10 consequtive timeouts after which Loader shuts down (Assuming there is no new data) and the application shuts down. * OutputFilePath = c:\temp\data\out_<offset>.json --> Offset increments based on MaxFileSize ##Depends On * Google GSON library for working with json documents * Jersey client library to make Http service requests
评论
    相关推荐
    • vision_transformer
      在此存储库中,我们从论文 释放模型,这些模型已在 ( imagenet21k )数据集上进行了预训练。 我们提供用于微调 / 已发布模型的代码。 模型概述:我们将图像分割成固定大小的块,线性地嵌入每个块,添加位置嵌入,...
    • transformer_network:空间变压器网络
      这已经转移到烤宽面条 参见 SpatialTransformerLayer已移至Lasagne。... 如果使用代码,请引用该存储库。 参考 [1] Jaderberg,Max等。 “空间变压器网络。” arXiv预印本arXiv:1506.02025(2015)。
    • gatsby-transformer-cloudinary:将Cloudinary图像与gatsby图像一起使用可实现高性能和全
      想要简单地利用Cloudinary的存储和优化的交付,将现有的媒体文件从Cloudinary提取到您的Gatsby项目中? 签出插件。 了解此插件的构建方式 在一解决了该插件的难题(将照片从Gatsby自动上传到Cloudinary并创建新的...
    • transformer:中子
      克隆存储库后,尝试pip install -r requirements.txt 。 如果要使用来实现到C库的转换,尝试使用简单的MT服务器并在此实现中支持支持的中文分词,则还应该使用pip install -r requirements.opt.txt将那些依赖项安装...
    • transformer_in_transformer_flax
      存储库实现 ,像素级注意与补丁级注意配对以进行图像分类。 Pytorch实施和Vision Transformer回购在很大程度上受到了启发。 安装 $ pip install transformer-in-transformer-flax 用法 from jax import random ...
    • password-transformer
      密码转换器 ###简介此项目的目的是提供一个简单的工具来管理不同网站的登录密码。 PassTran将根据用户的初始密码,域名和特定于用户的... 与其他密码管理工具不同,PassTran不存储密码,所有密码都是实时本地计算的。
    • sandwich_transformer:此存储库包含运行字符级 Sandwich Transformers 的代码,该代码来自
      通过对子层重新排序来改进 Transformer 模型 这个库包含上运行我们的ACL 2020纸上的字符级三明治变形金刚的代码(视频演示,总之)。 我们的角色级模型(和这个 repo)基于模型的。 在我们的论文中,我们展示了通过...
    • bitmap-transformer
      位图转换器 在今天的实验中,我们开始使用BufferedImage类处理bmp图像以读取图像,然后根据需要创建读取,写入和修改图像的方法 要在您的映像中运行代码或对其进行测试,请在克隆存储库后进入此目录,然后运行以下...
    • transformer-xl
      存储库包含本文的PyTorch和TensorFlow中的代码 戴子行*,杨治林*,杨一鸣,Jaime Carbonell,Quoc V.Le,Ruslan Salakhutdinov(*:平等贡献) 预印本2018 TensorFlow 源代码位于tf/文件夹中,支持(1)单节点多...
    • TP-Transformer
      我们准备了一个供任何人直接使用TP-Transformer进行实验。 从头开始训练 要求 pip3 install --upgrade gdown pip3 install --upgrade torch==1.1.0 pip3 install --upgrade torchtext==0.3.1 pip3 install --...