franois Le Lay,美国纽约州东塞托克特开发商
François is available for hire
Hire François

François Le Lay

Verified Expert  in Engineering

人工智能工程师和开发人员

Location
塞托克特-东塞托克特,纽约州,美国
至今成员总数
July 27, 2022

franois是一位经验丰富的领导者,在大型科技公司和初创公司的B2C和B2B环境中拥有构建数据平台和机器学习解决方案的经验. franois在Spotify工作了7年,担任经理,组建数据基础设施团队,并利用机器学习技术改进音乐目录,担任员工工程师.

Portfolio

Kensu
亚马逊网络服务(AWS)、Azure、Databricks、Spark、MLflow、Python 3、Data...
The Farmer's Dog
SQL, Python 3, ETL工具,Google BigQuery, R, Python, Pandas,团队领导...
Hugging Face
Python 3,变形金刚,GPU计算,自然语言处理...

Experience

Availability

Part-time

首选的环境

Python 3, R, Git, TensorFlow, PyTorch, 拥抱脸变压器, Jupyter Notebook, GraphQL, Computer Vision, Python, Pandas, 亚马逊网络服务(AWS)

The most amazing...

...我参与的人工智能项目使Spotify能够在公司的音乐知识图谱中提高艺术家实体及其相关工作的数据质量.

Work Experience

解决方案工程和集成主管

2022 - 2023
Kensu
  • 领导在前景环境中实现和部署Kensu数据可观察性解决方案(概念证明).
  • 对产品文档进行了改进,并用Python构建了一个自定义演示生成器.
  • 协助销售团队了解我们理想的客户资料和相关的技术发现过程.
Technologies: 亚马逊网络服务(AWS)、Azure、Databricks、Spark、MLflow、Python 3、Data, Hugging Face, 项目管理, Regex, Data Pipelines, 谷歌云平台(GCP), Llama 2, AI Programming, Data Scientist, 统计分析, Databases, Data Analysis, 统计建模

数据工程和数据科学总监

2021 - 2022
The Farmer's Dog
  • 监督与客户服务动态人员配置和食品物流相关的时间序列预测工作.
  • 支持旨在利用大型语言模型实时了解客户声音的数据产品策略.
  • 作为工程团队的关键干系人,通过识别和确定转换任何相关ETL摄取逻辑所需的工作的优先级,帮助他们向更加解耦的微服务架构过渡.
  • 参与了一个故障转移计划,以在公司的分析堆栈中建立弹性, 关注ETL冗余, vendor, 承包商管理.
  • 将数据工程团队的规模扩大一倍,以更好地支持跨市场利益相关者的需求, finance, operations, 工程部门.
  • 作为客户体验和工程团队的关键利益相关者,在从“客户”到“快乐”的迁移过程中进行工作, 特别强调下游数据处理和API集成.
Technologies: SQL, Python 3, ETL工具,Google BigQuery, R, Python, Pandas,团队领导, Data Science, 生成预训练变压器(GPT), GPT, 自然语言处理(NLP), Statistics, Data Engineering, ETL, PostgreSQL, REST APIs, JSON, CSV, Time Series, Data Mining, Data Modeling, Data Reporting, JavaScript, Tableau, Neural Networks, Data Analytics, Web Scraping, 人工智能(AI), Hugging Face, 项目管理, Regex, Data Pipelines, 财务预测, 生成式人工智能(GenAI), 大型语言模型(llm), 谷歌云平台(GCP), AI Programming, Data Scientist, 统计分析, Databases, Data Analysis, 统计建模

工程经理

2021 - 2021
Hugging Face
  • 担任公司有史以来聘请的第一位工程经理, 支持解决方案工程团队和进入市场的努力. 拥抱脸多年来一直引领着开源生成人工智能的潮流.
  • 推广了hug Face的专有加速解决方案(称为Optimum),用于在hug Face Hub上提供的开源大型语言模型的推理工作负载.
  • 招聘多个职能部门的关键人才, 包括人才招聘主管, 销售发展代表, 研究的科学家, 全栈和机器学习工程师与联合创始团队合作.
  • 运用我的人员管理技能,使自己成为一个乐于助人的仆人式领导, 用虚线表示所有四个团队的不同贡献者, including science, open-source, hub, and growth.
  • 为围绕多样性的关键举措做出贡献, equity, and inclusion as an extension to work done on the company charter focused on democratizing ethical machine learning.
  • 在我们的招聘过程中执行代码审查,这包括一项带回家的任务.
技术:Python 3, Transformers, GPU Computing, 生成预训练变压器(GPT), GPT, 自然语言处理(NLP), DataViz, Sales, Hiring, TensorFlow, PyTorch, 开放神经网络交换(ONNX), Python, Pandas, Scikit-learn, Team Leadership, Kubernetes, Deep Learning, Diffusion Models, Statistics, REST APIs, JSON, CSV, BERT, JavaScript, Neural Networks, 人工智能(AI), Language Models, Hugging Face, 项目管理, Regex, 生成式人工智能(GenAI), 大型语言模型(llm), AI Programming, Data Scientist, 统计分析, Databases, Data Analysis, 统计建模

机器学习工程师

2019 - 2021
Spotify
  • 领导了一项研究计划,该计划与Content Intelligence ML研究团队合作,对一系列大型语言模型(llm)进行微调,以探索转换模型作为知识检索器的功能.
  • 为后来成为Spotify AI DJ的功能奠定了概念基础(在我离开公司后创建并发布). 这个想法是使用生成式人工智能来制作关于音乐的个性化故事.
  • 综述了知识图谱识别领域的研究现状, 实体解析, 并对神经网络进行图形化,以开发利用第三方数据集的工作数据丰富解决方案的原型.
  • 在内容智能团队中担任机器学习任务的关键资源, 专注于通过更好的数据协调功能和在学习循环中适当整合人类专业知识来改进Spotify的音乐目录.
  • 在Spotify“幸运的”机器学习基础设施上部署端到端管道,利用大型语言模型, 使用TensorFlow Extended和Kubeflow管道(MLOps).
  • 使用音频特征和标准音乐元数据训练评分模型, 包括曲目名称和艺术家的名字. 向我的跨职能团队演示了它的使用和部署.
  • 撰写了一系列Jupyter笔记本教程,教授在音频文件中使用卷积神经网络(CNN)进行说话人分割(TensorFlow)。.
技术:Python 3, TensorFlow, Jupyter Notebook, 谷歌人工智能平台, Elastic, Python, Pandas, Scikit-learn, Kubernetes, Data Science, Deep Learning, 生成对抗网络(GANs), 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, Statistics, Data Engineering, REST APIs, JSON, CSV, BERT, Word2Vec, Data Mining, Data Modeling, Data Reporting, JavaScript, Neural Networks, Data Analytics, Music, 人工智能(AI), Audio, Mastering, Hugging Face, Regex, Data Pipelines, 生成式人工智能(GenAI), 大型语言模型(llm), 谷歌云平台(GCP), AI Programming, Data Scientist, 统计分析, Databases, Data Analysis, 统计建模

数据工程经理

2014 - 2019
Spotify
  • 雇佣和管理超过30个个人贡献者, 不同时, 在纽约的数据基础设施部落的多个小组.
  • 提倡并鼓励使用我们自己开发的名为Scio的图书馆, 一个用于Apache Beam的Scala API,它现在几乎为Spotify的每个数据管道提供支持.
  • 利用深度学习应用于音频的最新进展,贡献了多个机器学习黑客, knowledge graphs, 推荐系统.
  • 支持技术和科学交付, 以及与负责构建实验框架A/B测试的团队相关的人员流程, 被Spotify广泛使用.
  • 与构建机器学习基础设施的一个小组相关的技术方向和人员流程进行合作, 基于谷歌堆栈, GPU computing, TensorFlow, TFX, 和一般的GCP.
技术:Scala, Apache Beam, ClickHouse, Google BigQuery, 实验设计, 分布式系统, 商业智能(BI), 机器学习操作(MLOps), Data Quality, Management, Hiring, Python 3, CI/CD Pipelines, Python, Pandas, Scikit-learn, Team Leadership, Kubernetes, Data Science, Deep Learning, Statistics, Data Engineering, ETL, REST APIs, JSON, CSV, Time Series, Data Modeling, Data Reporting, JavaScript, Tableau, Neural Networks, Data Analytics, 亚马逊网络服务(AWS), Music, 人工智能(AI), Audio, Mastering, Hugging Face, 项目管理, Regex, Data Pipelines, 谷歌云平台(GCP), AI Programming, Data Scientist, 统计分析, Databases, Data Analysis, 统计建模

Director of Data

2012 - 2013
JDNviadeo
  • 提出了一个完全集成的内部CRM解决方案的愿景, 从头开始构建,能够处理面向专业社交网络用户群的内容个性化和实时通信.
  • 聘请具有博士学位的研究科学家来试点与数据质量相关的机器学习计划, 包括人员技能集群和改善用户体验.
  • 确定并签约了一家总部位于巴黎的咨询公司,该公司发明了Play框架,以实现未来的CRM系统组件.
  • 在分析小组中增加了一层管理领导, 专注于Web分析(GA)和BI仪表板.
  • 在专家顾问的指导下,在软件工程中引导敏捷实践,帮助公司过渡到构建健康的产品和高绩效的团队.
Technologies: R, Scala, Elastic, MongoDB, Play 2, 线性判别分析(LDA), 商业智能(BI), Email Marketing, Spark, Scikit-learn, Team Leadership, Data Science, 自然语言处理(NLP), GPT, 生成预训练变压器(GPT), Statistics, Data Engineering, ETL, JSON, CSV, Time Series, Data Mining, Data Modeling, Data Reporting, JavaScript, Neural Networks, Data Analytics, 亚马逊网络服务(AWS), 人工智能(AI), 项目管理, Regex, Data Pipelines, AI Programming, Data Scientist, 统计分析, Databases, Data Analysis, 统计建模

商务智能经理

2007 - 2012
Photobox
  • 实施公司首个商业智能解决方案, 基于Oracle BIEE和Oracle 11gR2数据库,使用Talend和OWB ETL从MySQL事务系统中获取数据.
  • 实施和管理, 与我的团队合作, 对Neolane进行的战略投资,用于跨渠道电子邮件营销. 它后来被Adobe收购,并更名为Adobe Marketing Suite.
  • 使用Cascalog DSL (Clojure库)对基于hadoop的数据仓库设计进行原型化,以便在层叠库之上运行分布式数据处理作业.
  • 研究客户调查解决方案,并将Vovici集成到分析系统中,以便用户研究经理能够快速了解客户的声音.
  • 指导营销团队中的数十名国家经理,使他们能够自主地进行电子邮件活动.
  • 保证强健的系统可用性,以满足业务利益相关者所要求的服务水平目标.
  • 与我们的数据挖掘经理合作,在Oracle堆栈上以完全生产的方式使用SPSS进行客户细分.
技术:Perl, Oracle, SQL, PL/SQL, Adobe营销云, 客户细分, 商业智能(BI), 亚马逊网络服务(AWS), Scikit-learn, Team Leadership, Data Science, 自然语言处理(NLP), 生成预训练变压器(GPT), GPT, Statistics, Data Engineering, ETL, PostgreSQL, JSON, CSV, Time Series, Data Mining, Data Modeling, Data Reporting, JavaScript, Data Analytics, Clojure, 人工智能(AI), 项目管理, Regex, Data Pipelines, 财务预测, 统计分析, Databases, Data Analysis, 统计建模

商业智能工程师

2005 - 2007
PriceMinister
  • 根据来自双边市场的操作数据创建每日ETL流程, eBay在法国的竞争对手.
  • 开发业务对象的商业智能报告,服务于财务和营销需求.
  • 接触到第三方机构进行的统计分析,以进一步了解市场动态, sellers vs. 并使用R语言贡献了我的发现.
技术:甲骨文, R, PL/SQL, Perl, Oracle Warehouse Builder (OWB), Data Science, Statistics, Data Engineering, ETL, CSV, Time Series, Data Mining, Data Modeling, Data Reporting, Data Analytics, Regex, Data Pipelines, 统计分析, Databases, Data Analysis, 统计建模

Web Developer

2003 - 2004
Lycos Inc.
  • 开发了一个关联门户的多个模块, 允许Lycos将其网络托管服务作为白标签出售.
  • 创建了后台界面的一部分,以显示各种使用统计数据.
  • 在产品改进的背景下,对免费虚拟主机用户群的客户生命周期价值进行了全面的统计分析.
Technologies: PHP, Apache2, Linux, MySQL, SAS, CSS2, HTML, Clustering, 客户细分, 客户终身价值, Data Science, Statistics, Time Series, Data Mining, Data Reporting, JavaScript, Data Analytics, Regex, 统计分析, Databases, Data Analysis, 统计建模

自营投资|算法交易

我真的很喜欢从嘈杂的数据中识别出微弱的信号,过去15年来一直在设计算法交易策略. Initially, 专注于外汇, 然后cryptocurrencies, 最后是股指期货,比如标准普尔500指数, the Nasdaq, or the Russell.

Nowadays, 我用c++和Sierra Chart实现我的策略, 但我也用过c#, Java, TypeScript, 在其他环境中使用Pine Script. 我使用BigQuery管理大量数据,并使用Python和MLflow研究策略来跟踪我的实验.

我非常尊重和钦佩Marcos Lopez de Prado在金融机器学习最佳实践民主化方面所做的工作. 我也很喜欢jean - philippe Bouchaud和Julien Guyon的作品.

作为市场流动性的学生, 在ICT的指导下,我对机构订单流有了更好的理解(@InnerCircleTrader).

国家数据科学竞赛:浮游生物识别

我参加了在Kaggle平台上举办的2015年全国数据科学碗. 这是一场计算机视觉竞赛,数据由俄勒冈州立大学哈特菲尔德海洋科学中心提供, 大量标记图像的集合, 其中大约有3万个是作为训练集提供的. 每张原始图像都经过自动处理以提取感兴趣的区域, 产生包含单个生物/实体的较小图像. 我创建了一个算法,将类别概率分配给给定的图像.

大规模QA-SRL解析|小贡献

http://github.com/lelayf/nrl-qasrl
问题回答是自然语言处理领域中一个重要的机器学习任务.

对问题及其答案可以用来识别句子中特定词性的语义作用, 语义角色标注. 我为这项学术工作贡献了一个小小的PyTorch调整.

adobexd |动画数字时钟定时器

http://github.com/lelayf/AdobeXD-animated-digital-clock-timer
我制作了一个移动应用程序原型,用于处理青少年足球比赛的持续时间,并在比赛期间方便换人.

这时我意识到Adobe XD是设计UI交互的优秀软件, 每当我想把一个想法变成现实的时候,我就会经常回到这里.

Gimp-LOMO

http://github.com/lelayf/gimp-lomo
用于GNU图像处理程序的Scheme Script-Fu插件,用于在用户的照片上应用Lomo LC-A效果.

Scheme是GIMP使用的一种Lisp方言, 一个领先的开源软件,用于图像处理和照片编辑. 它与Adobe Photoshop相去甚远.

Languages

Python 3, R, SQL, Python, JavaScript, Regex, PHP, CSS2, GraphQL, C++, SAS, Fortran, Scala, Lisp, Perl, HTML, Java, TypeScript, Pine Script, Clojure, Scheme

Libraries/APIs

Scikit-learn, TensorFlow, Pandas, REST api, PyTorch

Paradigms

商业智能(BI)、管理、数据科学、ETL

Platforms

Jupyter Notebook, Adobe营销云, Linux, 谷歌云平台(GCP), Oracle, 亚马逊网络服务(AWS), Apache2, Kubernetes, Azure, Databricks

Storage

MySQL, JSON,数据管道,数据库,PostgreSQL, ClickHouse, MongoDB, PL/SQL

行业专业知识

项目管理

Other

人工智能(AI), ETL Tools, Google BigQuery, 自然语言处理(NLP), Hiring, Data Quality, Machine Learning, Clustering, 客户终身价值, Computer Vision, Team Leadership, Deep Learning, Statistics, Data Engineering, CSV, BERT, Word2Vec, Time Series, Data Mining, Data Modeling, Data Reporting, Neural Networks, Data Analytics, Web Scraping, GPT, 生成预训练变压器(GPT), Music, Audio, Causal Inference, Data, Trading, Hugging Face, OpenAI, OpenAI GPT-3 API, OpenAI GPT-4 API, 生成式人工智能(GenAI), 大型语言模型(llm), AI Programming, Data Scientist, 统计分析, Data Analysis, 统计建模, 拥抱脸变压器, 时间序列分析, 统计方法, Transformers, 实验设计, 分布式系统, 机器学习操作(MLOps), Email Marketing, 客户细分, Futures & Options, 金融建模, 生成对抗网络(GANs), 财务预测, Llama 2, 数值分析, Algebra, GPU Computing, Sales, 开放神经网络交换(ONNX), CI/CD Pipelines, Scheme Script-Fu, 强化学习, 线性判别分析(LDA), Diffusion Models, Mastering, Language Models, MLflow, Genomics

Tools

Git, DataViz, 谷歌人工智能平台, Apache Beam, SPSS, Elastic, Oracle Warehouse Builder (OWB), Adobe体验设计(XD), Tableau

Frameworks

Play 2, Spark, MXNet, Caffe

2000 - 2003

统计学硕士学位

国家统计和信息分析学院(ENSAI) -雷恩,法国

1997 - 1999

信息学和应用数学学士学位

皮埃尔和玛丽居里大学-巴黎,法国

2021年3月至今

强化学习基础

阿尔伯塔大学

有效的合作

如何使用Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

选择你的才能

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring